Skip to content

ayachc/TCG

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Property Code Generation Evaluation

这个项目用于批量运行代码生成评测。入口脚本是 run.py,它会读取 .env 中的 API 配置,然后依次调用 src/main.py 处理配置好的数据集。

配置环境变量

先从模板创建本地配置文件:

cp .env.template .env

然后在 .env 中填写真实配置:

BASE_URL=https://example.com/v1
API_KEY=your-api-key
MODEL_NAME=your-model-name
HTTP_PROXY=
HTTPS_PROXY=

BASE_URLAPI_KEY 会被 src/llm_api/llm_api.py 读取,用于调用 OpenAI-compatible Chat Completions API。MODEL_NAME 会作为 --model_name 参数传给 src/main.py

如果需要代理,可以填写 HTTP_PROXYHTTPS_PROXY。如果不需要代理,保留为空或删除这两行即可。

运行

python run.py

run.py 当前默认运行以下数据集:

  • datasets/apps/apps100.jsonl,类型为 apps
  • datasets/codecontests/codecontests100.jsonl,类型为 codecontests

默认方法为 pass_k_baseline,主要参数包括:

  • temperature=0
  • top_p=0.95
  • max_tokens=8192
  • eval_worker_num=32
  • max_iterations=5

输出默认写入 src/output/<model_name>/<dataset_name>/

调整实验

可以在 run.py 中修改:

  • DATASET_CONFIGS:选择要评测的数据集
  • BASE_COMMAND:调整生成参数、评测方法和迭代次数

src/main.py 支持的数据集类型包括 humanevalmbppappscodecontestslivecodebenchusacorepoexec

About

Test-Centric Code Generation

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors