1 |
百度WebQA |
2016 |
百度 |
\ |
来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 |
阅读理解、百度知道真实问题 |
中文阅读理解 |
论文 |
|
2 |
百度DuReader中文阅读理解数据集 |
2018/3/1 |
百度 |
Apache2.0 |
本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 |
阅读理解、百度搜索真实问题 |
中文阅读理解 |
论文 |
|
3 |
SogouQA |
2018 |
搜狗 |
\ |
CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 |
阅读理解、搜狗搜索引擎真实问题 |
中文阅读理解 |
\ |
|
4 |
中文法律阅读理解数据集CJRC |
2019/8/17 |
哈工大讯飞联合实验室(HFL) |
\ |
数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 |
阅读理解、中文法律领域 |
中文阅读理解 |
论文 |
|
5 |
2019“讯飞杯”中文机器阅读理解数据集(CMRC ) |
2019年10月 |
哈工大讯飞联合实验室(HFL) |
CC-BY-SA-4.0 |
本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 |
句子级填空型阅读理解 |
中文阅读理解 |
\ |
赛事官网:https://hfl-rc.github.io/cmrc2019/ |
6 |
2018“讯飞杯”中文机器阅读理解数据集(CMRC ) |
2018/10/19 |
哈工大讯飞联合实验室(HFL) |
CC-BY-SA-4.0 |
CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 |
阅读理解、基于篇章片段抽取 |
中文阅读理解 |
论文 |
赛事官网:https://hfl-rc.github.io/cmrc2018/ |
7 |
2017“讯飞杯”中文机器阅读理解数据集(CMRC ) |
2017/10/14 |
哈工大讯飞联合实验室(HFL) |
CC-BY-SA-4.0 |
首个中文填空型阅读理解数据集PD&CFT |
填空型阅读理解 |
中文阅读理解 |
论文 |
赛事官网 |
8 |
莱斯杯:全国第二届“军事智能机器阅读”挑战赛 |
2019/9/3 |
中电莱斯信息系统有限公司 |
\ |
面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 |
多文档机器阅读理解 |
中文阅读理解 |
\ |
赛事官网 |
9 |
ReCO |
2020 |
搜狗 |
\ |
来源于搜狗的浏览器用户输入;有多选和直接答案 |
阅读理解、搜狗搜索 |
中文阅读理解 |
论文 |
\ |
10 |
DuReader-checklist |
2021/3 |
百度 |
Apache-2.0 |
建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 |
细粒度阅读理解 |
中文阅读理解 |
\ |
赛事官网 |
11 |
DuReader-Robust |
2020/8 |
百度 |
Apache-2.0 |
从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 |
百度搜索、鲁棒性阅读理解 |
中文阅读理解 |
论文 |
赛事官网 |
12 |
DuReader-YesNo |
2020/8 |
百度 |
Apache-2.0 |
DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 |
观点型阅读理解 |
中文阅读理解 |
\ |
赛事官网 |
13 |
DuReader2.0 |
2021 |
百度 |
Apache-2.0 |
DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 |
阅读理解 |
中文阅读理解 |
论文 |
赛事官网 |
14 |
CAIL2020 |
2020 |
哈工大讯飞联合实验室(HFL) |
\ |
中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 |
法律阅读理解 |
中文阅读理解 |
\ |
赛事官网 |
15 |
CAIL2021 |
2021 |
哈工大讯飞联合实验室(HFL) |
\ |
中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 |
法律阅读理解 |
中文阅读理解 |
\ |
赛事官网 |
16 |
CoQA |
2018/9 |
斯坦福大学 |
CC BY-SA 4.0、Apache等 |
CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 |
对话问答 |
英文阅读理解 |
论文 |
官方网站 |
17 |
SQuAD2.0 |
2018/1/11 |
斯坦福大学 |
\ |
行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本 —— 以及,现在在 SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 |
问答、包含未知答案 |
英文阅读理解 |
论文 |
|
18 |
SQuAD1.0 |
2016 |
斯坦福大学 |
\ |
斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的 536 篇文章 |
问答、基于篇章片段抽取 |
英文阅读理解 |
论文 |
|
19 |
MCTest |
2013 |
微软 |
\ |
100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 |
问答、搜索 |
英文阅读理解 |
论文 |
|
20 |
CNN/Dailymail |
2015 |
DeepMind |
Apache-2.0 |
填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 |
问答对、填空型阅读理解 |
英文阅读理解 |
论文 |
|
21 |
RACE |
2017 |
卡耐基梅隆大学 |
/ |
数据集为中国中学生英语阅读理解题目,给定一篇文章和 5 道 4 选 1 的题目,包括了 28000+ passages 和 100,000 问题。 |
选择题形式 |
英文阅读理解 |
论文 |
下载需邮件申请 |
22 |
HEAD-QA |
2019 |
aghie |
MIT |
一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 |
医疗领域、选择题形式 |
英文阅读理解 西班牙语阅读理解 |
论文 |
|
23 |
Consensus Attention-based Neural Networks for Chinese Reading Comprehension |
2018 |
哈工大讯飞联合实验室 |
/ |
中文完形填空型阅读理解 |
填空型阅读理解 |
中文阅读理解 |
论文 |
|
24 |
WikiQA |
2015 |
微软 |
/ |
WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 |
片段抽取阅读理解 |
英文阅读理解 |
论文 |
|
25 |
Children’s Book Test (CBT) |
2016 |
Facebook |
/ |
测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 |
填空型阅读理解 |
英文阅读理解 |
论文 |
|
26 |
NewsQA |
2017 |
Maluuba Research |
/ |
一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 |
片段抽取阅读理解 |
英文阅读理解 |
论文 |
|
27 |
Frames dataset |
2017 |
微软 |
/ |
介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 |
阅读理解、对话 |
英文阅读理解 |
论文 |
|
28 |
Quasar |
2017 |
卡内基梅隆大学 |
BSD-2-Clause |
提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站 Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 |
片段抽取阅读理解 |
英文阅读理解 |
论文 |
|
29 |
MS MARCO |
2018 |
微软 |
/ |
微软基于搜索引擎 BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于 BING 的搜索日志,根据用户在 BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 |
多文档 |
英文阅读理解 |
论文 |
|
30 |
中文完形填空 |
2016年 |
崔一鸣 |
|
首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 |
填空型阅读理解 |
中文完形填空 |
论文 |
|
31 |
NLPCC ICCPOL2016 |
2016.12.2 |
NLPCC主办方 |
|
基于文档中的句子人工合成14659个问题,包括14K中文篇章。 |
问答对阅读理解 |
中文阅读理解 |
\ |
|