CLUEDatasetSearch/机器翻译 at master · qiugui/CLUEDatasetSearch · GitHub

Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md

README.md

ID	标题	数据集更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	WMT2017	2017/2/1	EMNLP 2017 Workshop on Machine Translation		数据主要来源于 Europarl corpus和UN corpus两个机构，附带2017年从News Commentary corpus 任务中重新抽取的文章。这是由EMNLP会议提供的翻译语料，作为很多论文效果的benchmark来检测	Benchmark, WMT2017	中英翻译语料	https://www.statmt.org/wmt17/pdf/WMT17.pdf
2	WMT2018	2018/11/1	EMNLP 2018 Workshop on Machine Translation		数据主要来源于 Europarl corpus和UN corpus两个机构，附带2018年从News Commentary corpus 任务中重新抽取的文章。这是由EMNLP会议提供的翻译语料，作为很多论文效果的benchmark来检测	Benchmark, WMT2018	中英翻译语料	http://www.statmt.org/wmt18/
3	WMT2019	2019/1/31	EMNLP 2019 Workshop on Machine Translation		数据主要来源于 Europarl corpus和UN corpus两个机构, 以及附加了 news-commentary corpus and the ParaCrawl corpus中来得数据	Benchmark, WMT2019	中英翻译语料	http://www.statmt.org/wmt19/pdf/53/WMT01.pdf
4	UM-Corpus:A Large English-Chinese Parallel Corpus	2014/5/26	Department of Computer and Information Science, University of Macau, Macau		由澳门大学发布的中英文对照的高质量翻译语料	UM-Corpus;English; Chinese;large	中英翻译语料	http://www.lrec-conf.org/proceedings/lrec2014/pdf/774_Paper.pdf
5	[Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf)	2017/8/14	创新工场、搜狗和今日头条联合发起的 AI科技竞赛		规模最大的口语领域英中双语对照数据集。提供了超过1000万的英中对照的句子对作为数据集合。所有双语句对经过人工检查，数据集从规模、相关度、质量上都有保障。训练集：10,000,000 句验证集（同声传译）：934 句验证集（文本翻译）：8000 句	AI challenger 2017	中英翻译语料
6	MultiUN	2010	Department of Linguistics and Philology Uppsala University, Uppsala/Sweden		该数据集由德国人工智能研究中心提供，除此数据集外，该网站还提供了很多的别的语言之间的翻译对照语料供下载	MultiUN	中英翻译语料	MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010
7	NIST 2002 Open Machine Translation (OpenMT) Evaluation	2010/5/14	NIST Multimodal Information Group	LDC User Agreement for Non-Members	数据来源于Xinhua 新闻服务包含70个新闻故事，以及来自于Zaobao新闻服务的30个新闻故事，共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间，Xinhua部分共有有25247个字符， Zaobao有39256个字符	NIST	中英翻译语料	http://www.lrec-conf.org/proceedings/lrec2018/pdf/678.pdf	该系列有多年的数据，该数据使用需要付费
8	The Multitarget TED Talks Task (MTTT)	2018	Kevin Duh, JUH		该数据集包含基于TED演讲的多种语言的平行语料，包含中英文等共计20种语言	TED	中英翻译语料	The Multitarget TED Talks Task
9	ASPEC Chinese-Japanese	2019	Workshop on Asian Translation		该数据集主要研究亚洲区域的语言，如中文和日语之间，日语和英文之间的翻译任务翻译语料主要来自语科技论文（论文摘要；发明描述；专利等等）	Asian scientific patent Japanese	中日翻译语料	http://lotus.kuee.kyoto-u.ac.jp/WAT/
10	casia2015	2015	research group in Institute of Automation , Chinese Academy of Sciences		语料库包含从网络自动收集的大约一百万个句子对	casia CWMT 2015	中英翻译语料
11	casict2011	2011	research group in Institute of Computing Technology , Chinese Academy of Sciences		语料库包含2个部分，每个部分包含从网络自动收集的大约1百万（总计2百万）个句子对。句子级别的对齐精度约为90％。	casict CWMT 2011	中英翻译语料
12	casict2015	2015	research group in Institute of Computing Technology , Chinese Academy of Sciences		语料库包含大约200万个句子对，包括从网络（60％），电影字幕（20％）和英语/汉语词库（20％）收集的句子。句子水平对齐精度高于99％。	casict CWMT 2015	中英翻译语料
13	datum2015	2015	Datum Data Co., Ltd.		语料库包含一百万对句子，涵盖不同类型，例如用于语言教育的教科书，双语书籍，技术文档，双语新闻，政府白皮书，政府文档，网络上的双语资源等。请注意，数据中文部分的某些部分是按词段划分的。	datum CWMT 2015	中英翻译语料
14	datum2017	2017	Datum Data Co., Ltd.		语料库包含20个文件，涵盖不同类型，例如新闻，对话，法律文件，小说等。每个文件有50,000个句子。整个语料库包含一百万个句子。前10个文件（Book1-Book10）的中文词均已分段。	datum CWMT 2017	中英翻译语料
15	neu2017	2017	NLP lab of Northeastern University, China		语料库包含从网络自动收集的200万个句子对，包括新闻，技术文档等。句子级别的对齐精度约为90％。	neu CWMT 2017	中英翻译语料
16	翻译语料(translation2019zh)	2019	徐亮		可以用于训练中英文翻译系统，从中文翻译到英文，或从英文翻译到中文；由于有上百万的中文句子，可以只抽取中文的句子，做为通用中文语料，训练词向量或做为预训练的语料。英文任务也可以类似操作；