Skip to content

Latest commit

 

History

History
57 lines (34 loc) · 2.48 KB

2021领域迁移机器翻译挑战赛.md

File metadata and controls

57 lines (34 loc) · 2.48 KB

2021领域迁移机器翻译挑战赛

  • 任务简介

    • 领域迁移机器翻译挑战赛旨在增强跨领域机器翻译技术,本次大赛提供少量新闻领域的中英平行句对和大量口语领域的中文数据作为训练样本,参赛队伍需要基于提供的训练样本进行中到英机器翻译模型的构建与训练,并基于测试集提供最终的翻译结果
    • 官网:http://challenge.xfyun.cn/topic/info?type=domain-migration
  • 时间:2021.7~2021.10

  • 数据示例

    训练集-双语数据

    边缘-数字化创新的下一个目标。 The edge - it's the next frontier of business innovation.
    不过,历史上从来没有侵略者不被打败的。 This authority of the Congress has never been effectively questioned.

    训练集-单语数据

    你都会看到一些影子。
    一部纯粹由几部电影糅杂出来的影片。
    没有创新,没有进步。
    

    开发集-源语言

    开发集-源语言数据格式

    开发集-参考译文

    开发集-参考译文格式

    测试集,评测阶段只开放测试集的中文源语言文件,其格式与开发集源语言文件格式相同

  • 数据说明

    训练集 开发集 测试集 下载
    双语数据:200万新闻领域中英双语句对
    单语数据:1000万口语领域中文数据
    1000条口语领域双语句对 1000条口语领域双语句对 ×
  • 竞赛方案

    方案/ rank final BLEU-4 代码
    1(video (27:58~)) 24.46253 ×
    2(video (11:07~27:30)) 23.98328 ×
    3(video (1:20~10:40)) 22.43393 ×
  • 推荐资料

    暂无