forked from CLUEbenchmark/CLUEDatasetSearch
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
14c6141
commit fcf76e3
Showing
13 changed files
with
212 additions
and
162 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1 @@ | ||
.DS_Store |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,11 +1,11 @@ | ||
| 标题 | 链接 | 数据集更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ||
| ------------------------------------ | ------------------------------------------------------------ | -------------- | -------------------------------------- | ---- | ------------------------------------------------------------ | ------------ | ------------ | --------------------------------------------- | ---- | | ||
| CCKS2017中文电子病例命名实体识别 | https://biendata.com/competition/CCKS2017_2/data/ | 2017年5月 | 北京极目云健康科技有限公司 | | 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 | 电子病历 | 命名实体识别 | \ | 中文 | | ||
| CCKS2018中文电子病例命名实体识别 | https://biendata.com/competition/CCKS2018_1/data/ | 2018年 | 医渡云(北京)技术有限公司 | | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | 电子病历 | 命名实体识别 | \ | 中文 | | ||
| 微软亚研院MSRA命名实体识别识别数据集 | https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra | \ | MSRA | | 数据来源于MSRA,标注形式为BIO,共有46365条语料 | Msra | 命名实体识别 | \ | 中文 | | ||
| 1998人民日报语料集实体识别标注集 | https://github.com/ThunderingII/nlp_ner/tree/master/data | 1998年1月 | 人民日报 | | 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 | 98人民日报 | 命名实体识别 | \ | 中文 | | ||
| Boson | https://github.com/TomatoTang/BILSTM-CRF | \ | 玻森数据 | | 数据来源为Boson,标注形式为BMEO,共有2000条语料 | Boson | 命名实体识别 | \ | 中文 | | ||
| CLUE Fine-Grain NER | https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip | 2020年 | CLUE | | CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 | 细粒度;CULE | 命名实体识别 | \ | 中文 | | ||
| CoNLL-2003 | https://www.clips.uantwerpen.be/conll2003/ner/ | 2003 | CNTS - Language Technology Group | | 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 | CoNLL-2003 | 命名实体识别 | https://www.aclweb.org/anthology/W03-0419.pdf | 英文 | | ||
| 微博实体识别 | https://github.com/hltcoe/golden-horse | 2015年 | https://github.com/hltcoe/golden-horse | | | EMNLP-2015 | 命名实体识别 | | | | ||
| SIGHAN Bakeoff 2005 | http://sighan.cs.uchicago.edu/bakeoff2005/ | 2005年 | MSR/PKU | | | bakeoff-2005 | 命名实体识别 | | | | ||
|ID|标题 | 数据集更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ||
|---|------------------------------------ | -------------- | -------------------------------------- | ---- | ------------------------------------------------------------ | ------------ | ------------ | --------------------------------------------- | ---- | | ||
|1|[CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/)| 2017年5月 | 北京极目云健康科技有限公司 | | 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 | 电子病历 | 命名实体识别 | \ | 中文 | | ||
|2|[CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/)| 2018年 | 医渡云(北京)技术有限公司 | | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | 电子病历 | 命名实体识别 | \ | 中文 | | ||
|3|[微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra)| \ | MSRA | | 数据来源于MSRA,标注形式为BIO,共有46365条语料 | Msra | 命名实体识别 | \ | 中文 | | ||
|4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)| 1998年1月 | 人民日报 | | 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 | 98人民日报 | 命名实体识别 | \ | 中文 | | ||
|5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)| \ | 玻森数据 | | 数据来源为Boson,标注形式为BMEO,共有2000条语料 | Boson | 命名实体识别 | \ | 中文 | | ||
|6|[CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip)| 2020年 | CLUE | | CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 | 细粒度;CULE | 命名实体识别 | \ | 中文 | | ||
|7|[CoNLL-2003](https://www.clips.uantwerpen.be/conll2003/ner/)| 2003 | CNTS - Language Technology Group | | 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 | CoNLL-2003 | 命名实体识别 | https://www.aclweb.org/anthology/W03-0419.pdf | 英文 | | ||
|8|[微博实体识别](https://github.com/hltcoe/golden-horse)| 2015年 | https://github.com/hltcoe/golden-horse | | | EMNLP-2015 | 命名实体识别 | | | | ||
|9|[SIGHAN Bakeoff 2005](http://sighan.cs.uchicago.edu/bakeoff2005/)| 2005年 | MSR/PKU | | | bakeoff-2005 | 命名实体识别 | | | |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,11 +1,11 @@ | ||
| 标题 | 链接 | 数据集更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ||
| --------------- | ------------------------------------------------------------ | -------------- | ------------ | ---- | ------------------------------------------------------------ | ------ | ---- | ------------------------------------------------------------ | ---- | | ||
| NewsQA | https://github.com/Maluuba/newsqa | 2019/9/13 | 微软研究院 | | Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 | 英文 | QA | https://arxiv.org/abs/1611.09830 | | | ||
| SQuAD | https://rajpurkar.github.io/SQuAD-explorer/ | | 斯坦福 | | 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 | 英文 | QA | https://arxiv.org/abs/1606.05250 | | | ||
| SimpleQuestions | https://www.dropbox.com/s/tohrsllcfy7rch4/SimpleQuestions_v2.tgz | | Facebook | | 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 | 英文 | QA | https://arxiv.org/pdf/1506.02075v1.pdf | | | ||
| WikiQA | https://www.microsoft.com/en-us/download/details.aspx?id=52419&from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fdownloads%2F4495da01-db8c-4041-a7f6-7984a4f6a905%2Fdefault.aspx | 2016/7/14 | 微软研究院 | | 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 | 英文 | QA | https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F252176%2Fyangyihmeek_emnlp-15_wikiqa.pdf | | | ||
| cMedQA | https://github.com/zhangsheng93/cMedQA | 2019/2/25 | Zhang Sheng | | 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 | 中文 | QA | https://www.mdpi.com/2076-3417/7/8/767 | | | ||
| cMedQA2 | https://github.com/zhangsheng93/cMedQA2 | 2019/1/9 | Zhang Sheng | | cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 | 中文 | QA | https://ieeexplore.ieee.org/abstract/document/8548603 | | | ||
| webMedQA | https://github.com/hejunqing/webMedQA | 2019/3/10 | He Junqing | | 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 | 中文 | QA | https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-019-0761-8 | | | ||
| XQA | https://github.com/thunlp/XQA | 2019/7/29 | 清华大学 | | 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 | 多语言 | QA | https://www.aclweb.org/anthology/P19-1227 | | | ||
| AmazonQA | https://github.com/amazonqa/amazonqa | 2019/9/29 | 亚马逊 | | 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 | 英文 | QA | https://arxiv.org/pdf/1908.04364v1.pdf | | | ||
|ID|标题 | 数据集更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ||
|---|------------------------------------ | -------------- | -------------------------------------- | ---- | ------------------------------------------------------------ | ------------ | ------------ | --------------------------------------------- | ---- | | ||
|1|[NewsQA](https://github.com/Maluuba/newsqa)| 2019/9/13 | 微软研究院 | | Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 | 英文 | QA | https://arxiv.org/abs/1611.09830 | | | ||
|2|[SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)| | 斯坦福 | | 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 | 英文 | QA | https://arxiv.org/abs/1606.05250 | | | ||
|3|[SimpleQuestions](https://www.dropbox.com/s/tohrsllcfy7rch4/SimpleQuestions_v2.tgz)| | Facebook | | 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 | 英文 | QA | https://arxiv.org/pdf/1506.02075v1.pdf | | | ||
|4|[WikiQA](https://www.microsoft.com/en-us/download/details.aspx?id=52419&from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fdownloads%2F4495da01-db8c-4041-a7f6-7984a4f6a905%2Fdefault.aspx)| 2016/7/14 | 微软研究院 | | 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 | 英文 | QA | https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F252176%2Fyangyihmeek_emnlp-15_wikiqa.pdf | | | ||
|5|[cMedQA](https://github.com/zhangsheng93/cMedQA)| 2019/2/25 | Zhang Sheng | | 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 | 中文 | QA | https://www.mdpi.com/2076-3417/7/8/767 | | | ||
|6|[cMedQA2](https://github.com/zhangsheng93/cMedQA2)| 2019/1/9 | Zhang Sheng | | cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 | 中文 | QA | https://ieeexplore.ieee.org/abstract/document/8548603 | | | ||
|7|[webMedQA](https://github.com/hejunqing/webMedQA)| 2019/3/10 | He Junqing | | 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 | 中文 | QA | https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-019-0761-8 | | | ||
|8|[XQA](https://github.com/thunlp/XQA)| 2019/7/29 | 清华大学 | | 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 | 多语言 | QA | https://www.aclweb.org/anthology/P19-1227 | | | ||
|9|[AmazonQA](https://github.com/amazonqa/amazonqa)| 2019/9/29 | 亚马逊 | | 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 | 英文 | QA | https://arxiv.org/pdf/1908.04364v1.pdf | | |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,23 @@ | ||
#!/bin/bash | ||
######################################################################### | ||
# File Name: t.sh | ||
# Author: Junyi Li | ||
# Personal page: dukeenglish.github.io | ||
# Created Time: 00:09:13 2020-02-23 | ||
######################################################################### | ||
set -o errexit | ||
for file in * | ||
do | ||
echo $file | ||
if ! test -f $file | ||
then | ||
echo $file | ||
cd $file | ||
# mv README.md tt.md | ||
python ../pytmp.py tt.md > README.md | ||
# rm -rf tt.md | ||
cd .. | ||
fi | ||
done | ||
# mv README.md tt.md | ||
#python p |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,26 @@ | ||
#!/usr/bin/python | ||
#-*- coding:UTF-8 -*- | ||
######################################################################### | ||
# File Name: pytmp.py | ||
# Author: Junyi Li | ||
# Personal page: dukeenglish.github.io | ||
# Created Time: 21:59:43 2020-02-22 | ||
######################################################################### | ||
import sys | ||
file = sys.argv[1] | ||
k = [] | ||
with open(file) as f: | ||
tmp = f.readline() | ||
tmp = f.readline() | ||
line = f.readlines() | ||
# print(k, tmp) | ||
for i in line: | ||
i = i.strip().split('|') | ||
firstc = '['+i[1].strip()+']'+'('+i[2].strip()+')' | ||
output = [firstc] | ||
output += i[3:] | ||
k.append(output) | ||
print('|ID|标题 | 数据集更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |') | ||
print('|---|------------------------------------ | -------------- | -------------------------------------- | ---- | ------------------------------------------------------------ | ------------ | ------------ | --------------------------------------------- | ---- |') | ||
for n, i in enumerate(k): | ||
print('|'+str(n+1)+'|'+'|'.join(i)) |
Oops, something went wrong.