Skip to content

Latest commit

 

History

History
136 lines (101 loc) · 6.58 KB

README_zh-CN.md

File metadata and controls

136 lines (101 loc) · 6.58 KB

CLEVA: Chinese Language Models EVAluation Platform

🎯 引言

CLEVA的主要亮点包括

  • 一个全面的中文评测基准,包括31个任务(11个应用评估+20个能力评测任务),共370K中文测试样本(33.98%为全新构造,缓解数据泄露的问题);
  • 一个标准的中文评测流程,其中包括所有数据进行统一的预处理,所有模型使用同样一组中文提示模板进行评测等。
  • 一个可信的中文模型排行榜,因为CLEVA使用了大量新数据来缓解数据泄露,并定期组织评测。

其中排行榜由CLEVA使用全新的测试数据进行评测和维护。往期排行榜使用到的评测数据(处理好的测试样本、标注的提示模板等)将开放给用户,用户可自行在本地运行评测任务使用。

总览

🔥 新闻

  • [2023.11.02] 感谢斯坦福CRFM HELM团队的支持!CLEVA现在已经被整合到HELM的最新版本。用户可以通过HELM来使用CLEVA的数据进行线下评测了。
  • [2023.09.30] CLEVA被EMNLP 2023 System Demonstrations接收!
  • [2023.08.09] CLEVA的论文在ArXiv放出!

📌 教程

CLEVA目前已经整合到HELM中。CLEVA感谢斯坦福CRFM HELM团队的支持。用户可以通过HELM来使用CLEVA提供的数据集、标注提示模板、数据增强策略和中文自动指标来进行本地的评测。

注意
如果您想使用CLEVA线上评测您的模型,请通过clevaplat@gmail.com获取授权并查阅📘文档进行API开发.

🛠️ 安装

用户可以参考HELM的安装教程进行Python环境以及依赖项的安装(Python>=3.8)。

通过Anaconda进行安装

其中使用Anaconda进行安装的例子如下:

首先创建环境:

# 创建虚拟环境
# 只需要运行一次
conda create -n cleva python=3.8 pip

# 激活虚拟环境
conda activate cleva

然后安装依赖项:

pip install crfm-helm

⚖️ 评测

使用HELM评测gpt-3.5-turbo-0613在CLEVA中到英翻译任务的结果例子如下:

helm-run \
-r "cleva:model=openai/gpt-3.5-turbo-0613,task=translation,subtask=zh2en,prompt_id=0,version=v1,data_augmentation=cleva" \
--num-train-trials <num_trials> \
--max-eval-instances <max_eval_instances> \
--suite <suite_id>

其中-r是运行配置,里面每项参数解释如下:

  • task是CLEVA囊括的31个任务;
  • subtask是每个CLEVA任务下更细分的子任务类别;
  • prompt_id是CLEVA提供的标注提示模板索引(从0开始);
  • version是CLEVA数据集版本号(目前仅提供论文使用的v1版本数据集);
  • data_augmentaion是数据增强策略,其中取值cleva_robustness(评价中文健壮性的数据增强策略),cleva_fairness(评价中文公平性的数据增强策略)和cleva(同时评价中文健壮性和公平性)是CLEVA特有的中文数据增强策略。

其他参数的含义参考HELM的教程

CLEVA数据集(version=v1)对应的所有可用tasksubtaskprompt_id取值参考HELM里的配置文件。用户可以通过以下命令来运行整个CLEVA的评测(复现CLEVA结果的运行时间请参考论文):

helm-run \
-c src/helm/benchmark/presentation/run_specs_cleva_v1.conf \
--num-train-trials <num_trials> \
--max-eval-instances <max_eval_instances> \
--suite <suite_id>

一般而言,--max-eval-instances大于5000可以保证使用了CLEVA每个任务上的所有数据进行评测。

📊 参考结果

使用HELM评测gpt-3.5-turbo-0613在部分CLEVA任务(version=v1)上的结果与CLEVA平台运行的结果对比:

任务 指标 HELM复现结果 CLEVA评测结果
task=summarization,subtask=dialogue_summarization ROUGE-2 0.3045 0.3065
task=translation,subtask=en2zh SacreBLEU 60.48 59.23
task=fact_checking Exact Match 0.4595 0.4528
task=bias,subtask=dialogue_region_bias Micro F1 0.5656 0.5589

注意
结果的差异主要是由于随机种子不同导致不同的in-context示例以及CLEVA和HELM使用的ChatGPT版本不完全对齐。

⏬ 数据下载

如果您想在自己的代码中使用CLEVA的数据进行评测,您可以通过以下命令下载数据:

bash download_data.sh

运行成功后会在当前目录生成以数据版本命名的文件夹,里面包含CLEVA各个任务的数据。您可以通过向download_data.sh传递参数来指定数据版本。默认是v1

🛂 许可

CLEVA is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

You should have received a copy of the license along with this work. If not, see https://creativecommons.org/licenses/by-nc-nd/4.0/.

🖊️ 引用

如果您在您的工作中使用了CLEVA,请引用我们的论文:

@misc{li2023cleva,
      title={CLEVA: Chinese Language Models EVAluation Platform}, 
      author={Yanyang Li and Jianqiao Zhao and Duo Zheng and Zi-Yuan Hu and Zhi Chen and Xiaohui Su and Yongfeng Huang and Shijia Huang and Dahua Lin and Michael R. Lyu and Liwei Wang},
      year={2023},
      eprint={2308.04813},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}