1 |
LCSTS |
2015/8/6 |
Qingcai Chen |
|
数据集来源于新浪微博,包含两百万左右真实中文短文本,每条数据包括由作者标注的摘要和正文两个字段。另外有10,666条数据由人工标注出短文本与摘要的相关性,从1-5相关性依次增加。 |
单文本摘要;短文本;文本相关性 |
文本摘要 |
http://arxiv.org/abs/1506.05865 |
|
2 |
中文短文本摘要数据集 |
2018/6/20 |
He Zhengfang |
|
数据来源于新浪微博主流媒体发布的微博,共679898条数据。 |
单文本摘要;短文本 |
文本摘要 |
\ |
|
3 |
教育培训行业抽象式自动摘要中文语料库 |
2018/6/5 |
匿名 |
|
语料库收集了教育培训行业主流垂直媒体的历史文章,约24500条数据,每条数据包括由作者标注的摘要和正文两个字段。 |
单文本摘要;教育培训 |
文本摘要 |
\ |
|
4 |
NLPCC2017 Task3 |
2017/11/8 |
NLPCC2017主办方 |
|
数据集来源于新闻领域,是NLPCC2017举办提供的任务数据,可用于单文本摘要。 |
单文本摘要;新闻 |
文本摘要 |
\ |
|
5 |
神策杯2018 |
2018/10/11 |
DC竞赛主办方 |
|
数据来源于新闻文本,由DC竞赛主办方提供,模拟业务场景,以新闻文本的核心词提取为目的,最终结果达到提升推荐和用户画像的效果。 |
文本关键字;新闻 |
文本摘要 |
\ |
|
6 |
Byte Cup 2018国际机器学习竞赛 |
2018/12/4 |
字节跳动 |
|
数据来自字节跳动旗下产品TopBuzz和开放版权的文章,训练集包括了约 130 万篇文本的信息,验证集 1000 篇文章, 测试集 800 篇文章。 每条测试集和验证集的数据经由人工编辑手工标注多个可能的标题,作为答案备选。 |
单文本摘要;视频;新闻 |
文本摘要 |
\ |
英文 |
7 |
NEWSROOM |
2018/6/1 |
Grusky |
|
数据是从1998年到2017年的搜索和社交元数据中获得,并使用了多种提取和抽象相结合的摘要策略,包含作者和编辑在38个主要出版物编辑部撰写的130万篇文章和摘要。 |
单文本摘要;社交元数据;搜索 |
文本摘要 |
http://aclweb.org/anthology/N18-1065 |
英文 |
8 |
[DUC/TAC](https://duc.nist.gov/ https://tac.nist.gov//) |
2014/9/9 |
NIST |
|
全称Document Understanding Conferences/Text Analysis Conference,数据集来源于每年的TAC KBP(TAC Knowledge Base Population)比赛使用的语料库中的新闻专线和网络文本。 |
单文本/多文本摘要;新闻 |
文本摘要 |
\ |
英文 |
9 |
CNN/Daily Mail |
2017/7/31 |
Standford |
GNU v3 |
数据集是从美国有线新闻网(CNN)和每日邮报(DailyMail)中手机大约一百万条新闻数据作为机器阅读理解语料库。 |
多文本摘要;长文本;新闻 |
文本摘要 |
https://arxiv.org/pdf/1704.04368.pdf |
英文 |
10 |
Amazon SNAP Review |
2013/3/1 |
Standford |
|
数据来源于Amazon网站购物评论,可以获取每个大类别(如美食、电影等)下的数据,也可以一次性获取所有数据。 |
多文本摘要;购物评论 |
文本摘要 |
\ |
英文 |
11 |
Gigaword |
2003/1/28 |
David Graff, Christopher Cieri |
|
数据集包括约950w 篇新闻文章,用文章标题做摘要,属于单句摘要数据集。 |
单文本摘要;新闻 |
文本摘要 |
|
英文 |
12 |
RA-MDS |
2017/9/11 |
Piji Li |
|
全称Reader-Aware Multi-Document Summarization,数据集来源于新闻文章,由专家收集、标注和审查。涵盖了45个主题,每个主题包含10个新闻文档和4个模型摘要,每个新闻文档平均包含27个句子,每个句子平均包含25个单词。 |
多文本摘要;新闻;人工标注 |
文本摘要 |
http://lipiji.com/docs/li2017ramds.pdf |
英文 |
13 |
TIPSTER SUMMAC |
2003/5/21 |
The MITRE Corporation and the University of Edinburgh |
|
数据由183篇Computation and Language (cmp-lg) collection标记的文档组成,文档取自ACL会议发表论文。 |
多文本摘要;长文本 |
文本摘要 |
\ |
英文 |
14 |
WikiHow |
2018/10/18 |
Mahnaz Koupaee |
|
每条数据为一篇文章,每篇文章由多个段落组成,每个段落以一个总结它的句子开头。通过合并段落形成文章和段落大纲形成摘要,数据集的最终版本包含了超过200,000个长序列对。 |
多文本摘要;长文本 |
文本摘要 |
https://arxiv.org/abs/1810.09305 |
英文 |
15 |
Multi-News |
2019/12/4 |
Alex Fabbri |
|
数据来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。 |
多文本摘要 |
文本摘要 |
http://arxiv.org/abs/1906.01749 |
英文 |
16 |
MED Summaries |
2018/8/17 |
D.Potapov |
|
数据集用于动态视频摘要评估,包含160个视频的注释,其中验证集60、测试集100,测试集中有10个事件类别。 |
单文本摘要;视频注释 |
文本摘要 |
http://hal.inria.fr/hal-01022967 |
英文 |
17 |
BIGPATENT |
2019/7/27 |
Sharma |
|
数据集包括130万份美国专利文献记录以及人类书面抽象摘要,摘要包含更丰富的话语结构和更多的常用实体。 |
单文本摘要;专利;书面语 |
文本摘要 |
http://arxiv.org/abs/1906.03741 |
英文 |
18 |
[NYT]( https://catalog.ldc.upenn.edu/LDC2008T19) |
2008/10/17 |
Evan Sandhaus |
|
全称The New York Times,数据集包含150篇来自纽约时报的商业文章,抓取了从2009年11月到2010年1月纽约时报网站上的所有文章。 |
单文本摘要;商业文章 |
文本摘要 |
\ |
英文 |
19 |
The AQUAINT Corpus of English News Text |
2002/9/26 |
David Graff |
|
数据集由新华社(中华人民共和国)、纽约时报新闻服务和美联社世界新闻服务的英文新闻文本数据组成,包含大约3.75亿字。数据集收费。 |
单文本摘要;新闻 |
文本摘要 |
\ |
中文和英文 |
20 |
Legal Case Reports Data Set |
2012/10/19 |
Filippo Galgani |
|
数据集来自2006-2009年澳大利亚联邦法院(FCA)的澳大利亚法律案例,包含约4000个法律案件及其摘要。 |
单文本摘要;法律案件 |
文本摘要 |
\ |
英文 |
21 |
17 Timelines |
2015/5/29 |
G. B. Tran |
|
数据是从新闻文章网页中提取的内容,包含埃及、利比亚、也门、叙利亚四个国家的新闻。 |
单文本摘要;新闻 |
文本摘要 |
http://l3s.de/~gtran/publications/www2013.pdf |
多语言 |
22 |
PTS Corpus |
2018/10/9 |
Fei Sun |
|
全称Product Title Summarization Corpus,数据为移动设备显示电子商务应用中的产品名称摘要 |
单文本摘要;短文本 |
文本摘要 |
https://arxiv.org/abs/1808.06885 |
|
23 |
Scientific Summarization DataSets |
2019/10/26 |
Santosh Gupta |
|
数据集取自Semantic Scholar Corpus和ArXiv。来自Semantic Scholar语料库的标题/摘要对,过滤掉生物医学领域的所有论文,包含580万条数据。来自ArXiv的数据,包含了从1991年开始到2019年7月5日的每篇论文的标题/摘要对。数据集包含金融类数据10k,生物学类26k,数学类417k,物理类157万,CS类221k。 |
单文本摘要;论文 |
文本摘要 |
\ |
英文 |
24 |
Scientific Document Summarization Corpus and Annotations from the WING NUS group |
2019/3/19 |
Jaidka |
|
数据集包括ACL计算语言学和自然语言处理研究论文,以及各自的引用论文和三个输出摘要:传统作者的论文摘要(摘要)、社区摘要(引用语句“引文”的收集)和由训练有素的注释员撰写的人类摘要,训练集包含40篇文章和引用论文。 |
单文本摘要;论文 |
文本摘要 |
http://www.aclweb.org/anthology/W16-1511.pdf |
英文 |