这个项目用于批量运行代码生成评测。入口脚本是 run.py,它会读取 .env 中的 API 配置,然后依次调用 src/main.py 处理配置好的数据集。
先从模板创建本地配置文件:
cp .env.template .env然后在 .env 中填写真实配置:
BASE_URL=https://example.com/v1
API_KEY=your-api-key
MODEL_NAME=your-model-name
HTTP_PROXY=
HTTPS_PROXY=BASE_URL 和 API_KEY 会被 src/llm_api/llm_api.py 读取,用于调用 OpenAI-compatible Chat Completions API。MODEL_NAME 会作为 --model_name 参数传给 src/main.py。
如果需要代理,可以填写 HTTP_PROXY 和 HTTPS_PROXY。如果不需要代理,保留为空或删除这两行即可。
python run.pyrun.py 当前默认运行以下数据集:
datasets/apps/apps100.jsonl,类型为appsdatasets/codecontests/codecontests100.jsonl,类型为codecontests
默认方法为 pass_k_baseline,主要参数包括:
temperature=0top_p=0.95max_tokens=8192eval_worker_num=32max_iterations=5
输出默认写入 src/output/<model_name>/<dataset_name>/。
可以在 run.py 中修改:
DATASET_CONFIGS:选择要评测的数据集BASE_COMMAND:调整生成参数、评测方法和迭代次数
src/main.py 支持的数据集类型包括 humaneval、mbpp、apps、codecontests、livecodebench、usaco 和 repoexec。