CLUEDatasetSearch/文本摘要 at master · jonylok/CLUEDatasetSearch

Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md

ID	标题	数据集更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	LCSTS	2015/8/6	Qingcai Chen		数据集来源于新浪微博，包含两百万左右真实中文短文本，每条数据包括由作者标注的摘要和正文两个字段。另外有10,666条数据由人工标注出短文本与摘要的相关性，从1-5相关性依次增加。	单文本摘要；短文本；文本相关性	文本摘要	http://arxiv.org/abs/1506.05865
2	中文短文本摘要数据集	2018/6/20	He Zhengfang		数据来源于新浪微博主流媒体发布的微博，共679898条数据。	单文本摘要；短文本	文本摘要	\
3	教育培训行业抽象式自动摘要中文语料库	2018/6/5	匿名		语料库收集了教育培训行业主流垂直媒体的历史文章，约24500条数据，每条数据包括由作者标注的摘要和正文两个字段。	单文本摘要；教育培训	文本摘要	\
4	NLPCC2017 Task3	2017/11/8	NLPCC2017主办方		数据集来源于新闻领域，是NLPCC2017举办提供的任务数据，可用于单文本摘要。	单文本摘要；新闻	文本摘要	\
5	神策杯2018	2018/10/11	DC竞赛主办方		数据来源于新闻文本，由DC竞赛主办方提供，模拟业务场景，以新闻文本的核心词提取为目的，最终结果达到提升推荐和用户画像的效果。	文本关键字；新闻	文本摘要	\
6	Byte Cup 2018国际机器学习竞赛	2018/12/4	字节跳动		数据来自字节跳动旗下产品TopBuzz和开放版权的文章，训练集包括了约 130 万篇文本的信息，验证集 1000 篇文章，测试集 800 篇文章。每条测试集和验证集的数据经由人工编辑手工标注多个可能的标题，作为答案备选。	单文本摘要；视频；新闻	文本摘要	\	英文
7	NEWSROOM	2018/6/1	Grusky		数据是从1998年到2017年的搜索和社交元数据中获得，并使用了多种提取和抽象相结合的摘要策略，包含作者和编辑在38个主要出版物编辑部撰写的130万篇文章和摘要。	单文本摘要；社交元数据；搜索	文本摘要	http://aclweb.org/anthology/N18-1065	英文
8	[DUC/TAC](https://duc.nist.gov/ https://tac.nist.gov//)	2014/9/9	NIST		全称Document Understanding Conferences/Text Analysis Conference，数据集来源于每年的TAC KBP（TAC Knowledge Base Population）比赛使用的语料库中的新闻专线和网络文本。	单文本/多文本摘要；新闻	文本摘要	\	英文
9	CNN/Daily Mail	2017/7/31	Standford	GNU v3	数据集是从美国有线新闻网（CNN）和每日邮报(DailyMail)中手机大约一百万条新闻数据作为机器阅读理解语料库。	多文本摘要；长文本；新闻	文本摘要	https://arxiv.org/pdf/1704.04368.pdf	英文
10	Amazon SNAP Review	2013/3/1	Standford		数据来源于Amazon网站购物评论，可以获取每个大类别（如美食、电影等）下的数据，也可以一次性获取所有数据。	多文本摘要；购物评论	文本摘要	\	英文
11	Gigaword	2003/1/28	David Graff, Christopher Cieri		数据集包括约950w 篇新闻文章，用文章标题做摘要，属于单句摘要数据集。	单文本摘要；新闻	文本摘要		英文
12	RA-MDS	2017/9/11	Piji Li		全称Reader-Aware Multi-Document Summarization，数据集来源于新闻文章，由专家收集、标注和审查。涵盖了45个主题，每个主题包含10个新闻文档和4个模型摘要，每个新闻文档平均包含27个句子，每个句子平均包含25个单词。	多文本摘要；新闻；人工标注	文本摘要	http://lipiji.com/docs/li2017ramds.pdf	英文
13	TIPSTER SUMMAC	2003/5/21	The MITRE Corporation and the University of Edinburgh		数据由183篇Computation and Language (cmp-lg) collection标记的文档组成，文档取自ACL会议发表论文。	多文本摘要；长文本	文本摘要	\	英文
14	WikiHow	2018/10/18	Mahnaz Koupaee		每条数据为一篇文章，每篇文章由多个段落组成，每个段落以一个总结它的句子开头。通过合并段落形成文章和段落大纲形成摘要，数据集的最终版本包含了超过200,000个长序列对。	多文本摘要；长文本	文本摘要	https://arxiv.org/abs/1810.09305	英文
15	Multi-News	2019/12/4	Alex Fabbri		数据来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。	多文本摘要	文本摘要	http://arxiv.org/abs/1906.01749	英文
16	MED Summaries	2018/8/17	D.Potapov		数据集用于动态视频摘要评估，包含160个视频的注释，其中验证集60、测试集100，测试集中有10个事件类别。	单文本摘要；视频注释	文本摘要	http://hal.inria.fr/hal-01022967	英文
17	BIGPATENT	2019/7/27	Sharma		数据集包括130万份美国专利文献记录以及人类书面抽象摘要，摘要包含更丰富的话语结构和更多的常用实体。	单文本摘要；专利；书面语	文本摘要	http://arxiv.org/abs/1906.03741	英文
18	[NYT]( https://catalog.ldc.upenn.edu/LDC2008T19)	2008/10/17	Evan Sandhaus		全称The New York Times,数据集包含150篇来自纽约时报的商业文章,抓取了从2009年11月到2010年1月纽约时报网站上的所有文章。	单文本摘要；商业文章	文本摘要	\	英文
19	The AQUAINT Corpus of English News Text	2002/9/26	David Graff		数据集由新华社(中华人民共和国)、纽约时报新闻服务和美联社世界新闻服务的英文新闻文本数据组成，包含大约3.75亿字。数据集收费。	单文本摘要；新闻	文本摘要	\	中文和英文
20	Legal Case Reports Data Set	2012/10/19	Filippo Galgani		数据集来自2006-2009年澳大利亚联邦法院(FCA)的澳大利亚法律案例，包含约4000个法律案件及其摘要。	单文本摘要；法律案件	文本摘要	\	英文
21	17 Timelines	2015/5/29	G. B. Tran		数据是从新闻文章网页中提取的内容，包含埃及、利比亚、也门、叙利亚四个国家的新闻。	单文本摘要；新闻	文本摘要	http://l3s.de/~gtran/publications/www2013.pdf	多语言
22	PTS Corpus	2018/10/9	Fei Sun		全称Product Title Summarization Corpus，数据为移动设备显示电子商务应用中的产品名称摘要	单文本摘要；短文本	文本摘要	https://arxiv.org/abs/1808.06885
23	Scientific Summarization DataSets	2019/10/26	Santosh Gupta		数据集取自Semantic Scholar Corpus和ArXiv。来自Semantic Scholar语料库的标题/摘要对，过滤掉生物医学领域的所有论文，包含580万条数据。来自ArXiv的数据，包含了从1991年开始到2019年7月5日的每篇论文的标题/摘要对。数据集包含金融类数据10k，生物学类26k，数学类417k，物理类157万，CS类221k。	单文本摘要；论文	文本摘要	\	英文
24	Scientific Document Summarization Corpus and Annotations from the WING NUS group	2019/3/19	Jaidka		数据集包括ACL计算语言学和自然语言处理研究论文，以及各自的引用论文和三个输出摘要:传统作者的论文摘要(摘要)、社区摘要(引用语句“引文”的收集)和由训练有素的注释员撰写的人类摘要，训练集包含40篇文章和引用论文。	单文本摘要；论文	文本摘要	http://www.aclweb.org/anthology/W16-1511.pdf	英文

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

文本摘要

文本摘要

README.md

Files

文本摘要

Directory actions

More options

Directory actions

More options

Latest commit

History

文本摘要

Folders and files

parent directory

README.md