Skip to content

Latest commit

 

History

History
 
 

文本摘要

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
ID 标题 数据集更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 LCSTS 2015/8/6 Qingcai Chen 数据集来源于新浪微博,包含两百万左右真实中文短文本,每条数据包括由作者标注的摘要和正文两个字段。另外有10,666条数据由人工标注出短文本与摘要的相关性,从1-5相关性依次增加。 单文本摘要;短文本;文本相关性 文本摘要 http://arxiv.org/abs/1506.05865
2 中文短文本摘要数据集 2018/6/20 He Zhengfang 数据来源于新浪微博主流媒体发布的微博,共679898条数据。 单文本摘要;短文本 文本摘要 \
3 教育培训行业抽象式自动摘要中文语料库 2018/6/5 匿名 语料库收集了教育培训行业主流垂直媒体的历史文章,约24500条数据,每条数据包括由作者标注的摘要和正文两个字段。 单文本摘要;教育培训 文本摘要 \
4 NLPCC2017 Task3 2017/11/8 NLPCC2017主办方 数据集来源于新闻领域,是NLPCC2017举办提供的任务数据,可用于单文本摘要。 单文本摘要;新闻 文本摘要 \
5 神策杯2018 2018/10/11 DC竞赛主办方 数据来源于新闻文本,由DC竞赛主办方提供,模拟业务场景,以新闻文本的核心词提取为目的,最终结果达到提升推荐和用户画像的效果。 文本关键字;新闻 文本摘要 \
6 Byte Cup 2018国际机器学习竞赛 2018/12/4 字节跳动 数据来自字节跳动旗下产品TopBuzz和开放版权的文章,训练集包括了约 130 万篇文本的信息,验证集 1000 篇文章, 测试集 800 篇文章。 每条测试集和验证集的数据经由人工编辑手工标注多个可能的标题,作为答案备选。 单文本摘要;视频;新闻 文本摘要 \ 英文
7 NEWSROOM 2018/6/1 Grusky 数据是从1998年到2017年的搜索和社交元数据中获得,并使用了多种提取和抽象相结合的摘要策略,包含作者和编辑在38个主要出版物编辑部撰写的130万篇文章和摘要。 单文本摘要;社交元数据;搜索 文本摘要 http://aclweb.org/anthology/N18-1065 英文
8 [DUC/TAC](https://duc.nist.gov/ https://tac.nist.gov//) 2014/9/9 NIST 全称Document Understanding Conferences/Text Analysis Conference,数据集来源于每年的TAC KBP(TAC Knowledge Base Population)比赛使用的语料库中的新闻专线和网络文本。 单文本/多文本摘要;新闻 文本摘要 \ 英文
9 CNN/Daily Mail 2017/7/31 Standford GNU v3 数据集是从美国有线新闻网(CNN)和每日邮报(DailyMail)中手机大约一百万条新闻数据作为机器阅读理解语料库。 多文本摘要;长文本;新闻 文本摘要 https://arxiv.org/pdf/1704.04368.pdf 英文
10 Amazon SNAP Review 2013/3/1 Standford 数据来源于Amazon网站购物评论,可以获取每个大类别(如美食、电影等)下的数据,也可以一次性获取所有数据。 多文本摘要;购物评论 文本摘要 \ 英文
11 Gigaword 2003/1/28 David Graff, Christopher Cieri 数据集包括约950w 篇新闻文章,用文章标题做摘要,属于单句摘要数据集。 单文本摘要;新闻 文本摘要 英文
12 RA-MDS 2017/9/11 Piji Li 全称Reader-Aware Multi-Document Summarization,数据集来源于新闻文章,由专家收集、标注和审查。涵盖了45个主题,每个主题包含10个新闻文档和4个模型摘要,每个新闻文档平均包含27个句子,每个句子平均包含25个单词。 多文本摘要;新闻;人工标注 文本摘要 http://lipiji.com/docs/li2017ramds.pdf 英文
13 TIPSTER SUMMAC 2003/5/21 The MITRE Corporation and the University of Edinburgh 数据由183篇Computation and Language (cmp-lg) collection标记的文档组成,文档取自ACL会议发表论文。 多文本摘要;长文本 文本摘要 \ 英文
14 WikiHow 2018/10/18 Mahnaz Koupaee 每条数据为一篇文章,每篇文章由多个段落组成,每个段落以一个总结它的句子开头。通过合并段落形成文章和段落大纲形成摘要,数据集的最终版本包含了超过200,000个长序列对。 多文本摘要;长文本 文本摘要 https://arxiv.org/abs/1810.09305 英文
15 Multi-News 2019/12/4 Alex Fabbri 数据来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。 多文本摘要 文本摘要 http://arxiv.org/abs/1906.01749 英文
16 MED Summaries 2018/8/17 D.Potapov 数据集用于动态视频摘要评估,包含160个视频的注释,其中验证集60、测试集100,测试集中有10个事件类别。 单文本摘要;视频注释 文本摘要 http://hal.inria.fr/hal-01022967 英文
17 BIGPATENT 2019/7/27 Sharma 数据集包括130万份美国专利文献记录以及人类书面抽象摘要,摘要包含更丰富的话语结构和更多的常用实体。 单文本摘要;专利;书面语 文本摘要 http://arxiv.org/abs/1906.03741 英文
18 [NYT]( https://catalog.ldc.upenn.edu/LDC2008T19) 2008/10/17 Evan Sandhaus 全称The New York Times,数据集包含150篇来自纽约时报的商业文章,抓取了从2009年11月到2010年1月纽约时报网站上的所有文章。 单文本摘要;商业文章 文本摘要 \ 英文
19 The AQUAINT Corpus of English News Text 2002/9/26 David Graff 数据集由新华社(中华人民共和国)、纽约时报新闻服务和美联社世界新闻服务的英文新闻文本数据组成,包含大约3.75亿字。数据集收费。 单文本摘要;新闻 文本摘要 \ 中文和英文
20 Legal Case Reports Data Set 2012/10/19 Filippo Galgani 数据集来自2006-2009年澳大利亚联邦法院(FCA)的澳大利亚法律案例,包含约4000个法律案件及其摘要。 单文本摘要;法律案件 文本摘要 \ 英文
21 17 Timelines 2015/5/29 G. B. Tran 数据是从新闻文章网页中提取的内容,包含埃及、利比亚、也门、叙利亚四个国家的新闻。 单文本摘要;新闻 文本摘要 http://l3s.de/~gtran/publications/www2013.pdf 多语言
22 PTS Corpus 2018/10/9 Fei Sun 全称Product Title Summarization Corpus,数据为移动设备显示电子商务应用中的产品名称摘要 单文本摘要;短文本 文本摘要 https://arxiv.org/abs/1808.06885
23 Scientific Summarization DataSets 2019/10/26 Santosh Gupta 数据集取自Semantic Scholar Corpus和ArXiv。来自Semantic Scholar语料库的标题/摘要对,过滤掉生物医学领域的所有论文,包含580万条数据。来自ArXiv的数据,包含了从1991年开始到2019年7月5日的每篇论文的标题/摘要对。数据集包含金融类数据10k,生物学类26k,数学类417k,物理类157万,CS类221k。 单文本摘要;论文 文本摘要 \ 英文
24 Scientific Document Summarization Corpus and Annotations from the WING NUS group 2019/3/19 Jaidka 数据集包括ACL计算语言学和自然语言处理研究论文,以及各自的引用论文和三个输出摘要:传统作者的论文摘要(摘要)、社区摘要(引用语句“引文”的收集)和由训练有素的注释员撰写的人类摘要,训练集包含40篇文章和引用论文。 单文本摘要;论文 文本摘要 http://www.aclweb.org/anthology/W16-1511.pdf 英文