1 |
WMT2017 |
2017/2/1 |
EMNLP 2017 Workshop on Machine Translation |
|
数据主要来源于 Europarl corpus和UN corpus两个机构, 附带2017年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果 的benchmark来检测 |
Benchmark, WMT2017 |
中英翻译 语料 |
https://www.statmt.org/wmt17/pdf/WMT17.pdf |
|
2 |
WMT2018 |
2018/11/1 |
EMNLP 2018 Workshop on Machine Translation |
|
数据主要来源于 Europarl corpus和UN corpus两个机构, 附带2018年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果 的benchmark来检测 |
Benchmark, WMT2018 |
中英翻译 语料 |
http://www.statmt.org/wmt18/ |
|
3 |
WMT2019 |
2019/1/31 |
EMNLP 2019 Workshop on Machine Translation |
|
数据主要来源于 Europarl corpus和UN corpus两个机构, 以及附加了 news-commentary corpus and the ParaCrawl corpus中来得数据 |
Benchmark, WMT2019 |
中英翻译 语料 |
http://www.statmt.org/wmt19/pdf/53/WMT01.pdf |
|
4 |
UM-Corpus:A Large English-Chinese Parallel Corpus |
2014/5/26 |
Department of Computer and Information Science, University of Macau, Macau |
|
由澳门大学发布的 中英文对照的 高质量翻译语料 |
UM-Corpus;English; Chinese;large |
中英翻译 语料 |
http://www.lrec-conf.org/proceedings/lrec2014/pdf/774_Paper.pdf |
|
5 |
[Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) |
2017/8/14 |
创新工场、搜狗和 今日头条联合发起的 AI科技竞赛 |
|
规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句 验证集(同声传译):934 句 验证集(文本翻译):8000 句 |
AI challenger 2017 |
中英翻译 语料 |
|
|
6 |
MultiUN |
2010 |
Department of Linguistics and Philology Uppsala University, Uppsala/Sweden |
|
该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别 的语言之间的翻译对照语料供下载 |
MultiUN |
中英翻译 语料 |
MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 |
|
7 |
NIST 2002 Open Machine Translation (OpenMT) Evaluation |
2010/5/14 |
NIST Multimodal Information Group |
LDC User Agreement for Non-Members |
数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个 从两个新闻集中选择出来的故事的长度都再212到707个 中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 |
NIST |
中英翻译 语料 |
http://www.lrec-conf.org/proceedings/lrec2018/pdf/678.pdf |
该系列有多年的数据, 该数据使用需要付费 |
8 |
The Multitarget TED Talks Task (MTTT) |
2018 |
Kevin Duh, JUH |
|
该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 |
TED |
中英翻译 语料 |
The Multitarget TED Talks Task |
|
9 |
ASPEC Chinese-Japanese |
2019 |
Workshop on Asian Translation |
|
该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务 翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) |
Asian scientific patent Japanese |
中日翻译语料 |
http://lotus.kuee.kyoto-u.ac.jp/WAT/ |
|
10 |
casia2015 |
2015 |
research group in Institute of Automation , Chinese Academy of Sciences |
|
语料库包含从网络自动收集的大约一百万个句子对 |
casia CWMT 2015 |
中英翻译语料 |
|
|
11 |
casict2011 |
2011 |
research group in Institute of Computing Technology , Chinese Academy of Sciences |
|
语料库包含2个部分,每个部分包含从网络自动收集 的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 |
casict CWMT 2011 |
中英翻译语料 |
|
|
12 |
casict2015 |
2015 |
research group in Institute of Computing Technology , Chinese Academy of Sciences |
|
语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 |
casict CWMT 2015 |
中英翻译语料 |
|
|
13 |
datum2015 |
2015 |
Datum Data Co., Ltd. |
|
语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 |
datum CWMT 2015 |
中英翻译语料 |
|
|
14 |
datum2017 |
2017 |
Datum Data Co., Ltd. |
|
语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 |
datum CWMT 2017 |
中英翻译语料 |
|
|
15 |
neu2017 |
2017 |
NLP lab of Northeastern University, China |
|
语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 |
neu CWMT 2017 |
中英翻译语料 |
|
|
16 |
翻译语料(translation2019zh) |
2019 |
徐亮 |
|
可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
|
|
|
|