ID | 标题 | 数据集更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | NewsQA | 2019/9/13 | 微软研究院 | Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 | 英文 | QA | https://arxiv.org/abs/1611.09830 | ||
2 | SQuAD | 斯坦福 | 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 | 英文 | QA | https://arxiv.org/abs/1606.05250 | |||
3 | SimpleQuestions | 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 | 英文 | QA | https://arxiv.org/pdf/1506.02075v1.pdf | ||||
4 | WikiQA | 2016/7/14 | 微软研究院 | 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 | 英文 | QA | https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F252176%2Fyangyihmeek_emnlp-15_wikiqa.pdf | ||
5 | cMedQA | 2019/2/25 | Zhang Sheng | 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 | 中文 | QA | https://www.mdpi.com/2076-3417/7/8/767 | ||
6 | cMedQA2 | 2019/1/9 | Zhang Sheng | cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 | 中文 | QA | https://ieeexplore.ieee.org/abstract/document/8548603 | ||
7 | webMedQA | 2019/3/10 | He Junqing | 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 | 中文 | QA | https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-019-0761-8 | ||
8 | XQA | 2019/7/29 | 清华大学 | 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 | 多语言 | QA | https://www.aclweb.org/anthology/P19-1227 | ||
9 | AmazonQA | 2019/9/29 | 亚马逊 | 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 | 英文 | QA | https://arxiv.org/pdf/1908.04364v1.pdf |