Skip to content

Latest commit

 

History

History
11 lines (11 loc) · 3.76 KB

README.md

File metadata and controls

11 lines (11 loc) · 3.76 KB
ID 标题 数据集更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 CCKS2017中文电子病例命名实体识别 2017年5月 北京极目云健康科技有限公司 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 电子病历 命名实体识别 \ 中文
2 CCKS2018中文电子病例命名实体识别 2018年 医渡云(北京)技术有限公司 CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 电子病历 命名实体识别 \ 中文
3 微软亚研院MSRA命名实体识别识别数据集 \ MSRA 数据来源于MSRA,标注形式为BIO,共有46365条语料 Msra 命名实体识别 \ 中文
4 1998人民日报语料集实体识别标注集 1998年1月 人民日报 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 98人民日报 命名实体识别 \ 中文
5 Boson \ 玻森数据 数据来源为Boson,标注形式为BMEO,共有2000条语料 Boson 命名实体识别 \ 中文
6 CLUE Fine-Grain NER 2020年 CLUE CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 细粒度;CULE 命名实体识别 \ 中文
7 CoNLL-2003 2003 CNTS - Language Technology Group 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 CoNLL-2003 命名实体识别 https://www.aclweb.org/anthology/W03-0419.pdf 英文
8 微博实体识别 2015年 https://github.com/hltcoe/golden-horse EMNLP-2015 命名实体识别
9 SIGHAN Bakeoff 2005 2005年 MSR/PKU bakeoff-2005 命名实体识别