Property Code Generation Evaluation

这个项目用于批量运行代码生成评测。入口脚本是 run.py，它会读取 .env 中的 API 配置，然后依次调用 src/main.py 处理配置好的数据集。

配置环境变量

先从模板创建本地配置文件：

cp .env.template .env

然后在 .env 中填写真实配置：

BASE_URL=https://example.com/v1
API_KEY=your-api-key
MODEL_NAME=your-model-name
HTTP_PROXY=
HTTPS_PROXY=

BASE_URL 和 API_KEY 会被 src/llm_api/llm_api.py 读取，用于调用 OpenAI-compatible Chat Completions API。MODEL_NAME 会作为 --model_name 参数传给 src/main.py。

如果需要代理，可以填写 HTTP_PROXY 和 HTTPS_PROXY。如果不需要代理，保留为空或删除这两行即可。

运行

python run.py

run.py 当前默认运行以下数据集：

datasets/apps/apps100.jsonl，类型为 apps
datasets/codecontests/codecontests100.jsonl，类型为 codecontests

默认方法为 pass_k_baseline，主要参数包括：

temperature=0
top_p=0.95
max_tokens=8192
eval_worker_num=32
max_iterations=5

输出默认写入 src/output/<model_name>/<dataset_name>/。

调整实验

可以在 run.py 中修改：

DATASET_CONFIGS：选择要评测的数据集
BASE_COMMAND：调整生成参数、评测方法和迭代次数

src/main.py 支持的数据集类型包括 humaneval、mbpp、apps、codecontests、livecodebench、usaco 和 repoexec。

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
datasets		datasets
src		src
study		study
utils		utils
.env.template		.env.template
.gitignore		.gitignore
README.md		README.md
index.html		index.html
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Property Code Generation Evaluation

配置环境变量

运行

调整实验

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Property Code Generation Evaluation

配置环境变量

运行

调整实验

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages