BUMBLE Benchmark

A bilingual(English&Chinese) benchmark for implicit bias evaluation in Large Language Models using psychometric attack methods

Run evaluations

# discriminative tasks
sh run_discriminative.sh

# generative tasks
sh run_generative.sh

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data		data
result/gpt-3.5-turbo-1106		result/gpt-3.5-turbo-1106
scripts/gpt-3.5-turbo-1106		scripts/gpt-3.5-turbo-1106
README.md		README.md
requirements.txt		requirements.txt