Skip to content

Latest commit

 

History

History
 
 

机器翻译

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
ID 标题 数据集更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 WMT2017 2017/2/1 EMNLP 2017 Workshop on Machine Translation 数据主要来源于 Europarl corpus和UN corpus两个机构, 附带2017年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果 的benchmark来检测 Benchmark, WMT2017 中英翻译 语料 https://www.statmt.org/wmt17/pdf/WMT17.pdf
2 WMT2018 2018/11/1 EMNLP 2018 Workshop on Machine Translation 数据主要来源于 Europarl corpus和UN corpus两个机构, 附带2018年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果 的benchmark来检测 Benchmark, WMT2018 中英翻译 语料 http://www.statmt.org/wmt18/
3 WMT2019 2019/1/31 EMNLP 2019 Workshop on Machine Translation 数据主要来源于 Europarl corpus和UN corpus两个机构, 以及附加了 news-commentary corpus and the ParaCrawl corpus中来得数据 Benchmark, WMT2019 中英翻译 语料 http://www.statmt.org/wmt19/pdf/53/WMT01.pdf
4 UM-Corpus:A Large English-Chinese Parallel Corpus 2014/5/26 Department of Computer and Information Science, University of Macau, Macau 由澳门大学发布的 中英文对照的 高质量翻译语料 UM-Corpus;English; Chinese;large 中英翻译 语料 http://www.lrec-conf.org/proceedings/lrec2014/pdf/774_Paper.pdf
5 [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) 2017/8/14 创新工场、搜狗和 今日头条联合发起的 AI科技竞赛 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句 验证集(同声传译):934 句 验证集(文本翻译):8000 句 AI challenger 2017 中英翻译 语料
6 MultiUN 2010 Department of Linguistics and Philology Uppsala University, Uppsala/Sweden 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别 的语言之间的翻译对照语料供下载 MultiUN 中英翻译 语料 MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010
7 NIST 2002 Open Machine Translation (OpenMT) Evaluation 2010/5/14 NIST Multimodal Information Group LDC User Agreement for Non-Members 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个 从两个新闻集中选择出来的故事的长度都再212到707个 中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 NIST 中英翻译 语料 http://www.lrec-conf.org/proceedings/lrec2018/pdf/678.pdf 该系列有多年的数据, 该数据使用需要付费
8 The Multitarget TED Talks Task (MTTT) 2018 Kevin Duh, JUH 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 TED 中英翻译 语料 The Multitarget TED Talks Task
9 ASPEC Chinese-Japanese 2019 Workshop on Asian Translation 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务 翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) Asian scientific patent Japanese 中日翻译语料 http://lotus.kuee.kyoto-u.ac.jp/WAT/
10 casia2015 2015 research group in Institute of Automation , Chinese Academy of Sciences 语料库包含从网络自动收集的大约一百万个句子对 casia CWMT 2015 中英翻译语料
11 casict2011 2011 research group in Institute of Computing Technology , Chinese Academy of Sciences 语料库包含2个部分,每个部分包含从网络自动收集 的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 casict CWMT 2011 中英翻译语料
12 casict2015 2015 research group in Institute of Computing Technology , Chinese Academy of Sciences 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 casict CWMT 2015 中英翻译语料
13 datum2015 2015 Datum Data Co., Ltd. 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 datum CWMT 2015 中英翻译语料
14 datum2017 2017 Datum Data Co., Ltd. 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 datum CWMT 2017 中英翻译语料
15 neu2017 2017 NLP lab of Northeastern University, China 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 neu CWMT 2017 中英翻译语料
16 翻译语料(translation2019zh) 2019 徐亮 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;