CodeLLMEval

Evaluation based on programming scenarios

[ English | 中文 ]

👋 Join our WeChat

Defect scenario	Serious result	Test set case
Dead Loop	Severe cause CPU 100%, service crash	2
Memory leak, memory overflow	Severe OOM, service crashes	2
Thread Deadlock	Concurrent threads compete for resource deadlocks, severely causing CPU 100% or OOM, service unavailability or failure	2
Inconsistent concurrent data	Improper operation in multi-threaded situations leads to inconsistent and dirty data	1

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
assets		assets
high-frequency-bugs		high-frequency-bugs
human-eval		human-eval
lesson		lesson
prompt-template		prompt-template
README.md		README.md
README_zh.md		README_zh.md