-
任务简介
- 本次大赛提供少量平行句对和大量单语数据作为训练样本,参赛选手需基于提供的样本构建机器翻译模型,并提供测试集翻译结果。
- 官网:http://challenge.xfyun.cn/topic/info?type=multi-language-2021
-
时间:2021.6~2021.10
-
数据示例
训练集:以”中俄翻译“为例
开发集:源语言文件和参考译文文件
- setid:开发集id
- srclang:源语言标识,值为:ru(俄语)、zh(汉语)、bg(保加利亚语)、ms(马来语)、id(印尼语)
- trglang:目标语言标识,值同srclang
- srcset元素包含一个或多个DOC元素,每个DOC具有属性docid表示文档名称,DOC元素还可以包含零个或多个p元素,不同的p元素对应着不同的篇章。每个DOC元素或p元素包含1个或多个seg元素,每个seg元素有一个属性id。
参考译文文件包含一个refset元素,DOC元素包含docid,sysid和site三个属性,其中docid表示文档名称,sysid说明系统标识,site用以区分不同的参考译文。本次评测中,开发集数据的每个句子将有1个参考译文。
-
数据说明
训练集 开发集 测试集 下载 初赛 平行句对:50万俄-中,50万保加利亚-中
单语数据:1000万中文、1000万俄语、1000万保加利亚语每个方向各1000句 每个方向各1000句 × 复赛 平行句对:20万马来-中,20万印尼-中
单语数据:1000万中文、1000万马来语、1000万印尼语每个方向各1000句 每个方向各10000句 × -
竞赛方案
方案/复赛rank 初赛 BLEU4 复赛 BLEU4 代码 1(video(28:00~) ) 20.46731 25.83835 √ 2(video (17:38~27:30)) 29.14051 25.7005 × 3(video (00:45~17:10)) 25.49482 25.59842 × -
推荐资料
暂无