Skip to content

Latest commit

 

History

History
52 lines (30 loc) · 3.1 KB

2021低资源多语种文本翻译挑战赛.md

File metadata and controls

52 lines (30 loc) · 3.1 KB

2021低资源多语种文本翻译挑战赛

  • 任务简介

  • 时间:2021.6~2021.10

  • 数据示例

    训练集:以”中俄翻译“为例

    中文示例

    俄语示例

    开发集:源语言文件和参考译文文件

    源语言文件
    • setid:开发集id
    • srclang:源语言标识,值为:ru(俄语)、zh(汉语)、bg(保加利亚语)、ms(马来语)、id(印尼语)
    • trglang:目标语言标识,值同srclang
    • srcset元素包含一个或多个DOC元素,每个DOC具有属性docid表示文档名称,DOC元素还可以包含零个或多个p元素,不同的p元素对应着不同的篇章。每个DOC元素或p元素包含1个或多个seg元素,每个seg元素有一个属性id。
    参考译文文件

    参考译文文件包含一个refset元素,DOC元素包含docid,sysid和site三个属性,其中docid表示文档名称,sysid说明系统标识,site用以区分不同的参考译文。本次评测中,开发集数据的每个句子将有1个参考译文。

  • 数据说明

    训练集 开发集 测试集 下载
    初赛 平行句对:50万俄-中,50万保加利亚-中
    单语数据:1000万中文、1000万俄语、1000万保加利亚语
    每个方向各1000句 每个方向各1000句 ×
    复赛 平行句对:20万马来-中,20万印尼-中
    单语数据:1000万中文、1000万马来语、1000万印尼语
    每个方向各1000句 每个方向各10000句 ×
  • 竞赛方案

    方案/复赛rank 初赛 BLEU4 复赛 BLEU4 代码
    1(video(28:00~) ) 20.46731 25.83835
    2(video (17:38~27:30)) 29.14051 25.7005 ×
    3(video (00:45~17:10)) 25.49482 25.59842 ×
  • 推荐资料

    暂无