Skip to content

Latest commit

 

History

History
 
 

NER

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
ID 标题 数据集更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 CCKS2017中文电子病例命名实体识别 2017年5月 北京极目云健康科技有限公司 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 电子病历 命名实体识别 \ 中文
2 CCKS2018中文电子病例命名实体识别 2018年 医渡云(北京)技术有限公司 CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 电子病历 命名实体识别 \ 中文
3 微软亚研院MSRA命名实体识别识别数据集 \ MSRA 数据来源于MSRA,标注形式为BIO,共有46365条语料 Msra 命名实体识别 \ 中文
4 1998人民日报语料集实体识别标注集 1998年1月 人民日报 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 98人民日报 命名实体识别 \ 中文
5 Boson \ 玻森数据 数据来源为Boson,标注形式为BMEO,共有2000条语料 Boson 命名实体识别 \ 中文
6 CLUE Fine-Grain NER 2020年 CLUE CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 细粒度;CULE 命名实体识别 \ 中文
7 CoNLL-2003 2003 CNTS - Language Technology Group 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 CoNLL-2003 命名实体识别 https://www.aclweb.org/anthology/W03-0419.pdf 英文
8 微博实体识别 2015年 https://github.com/hltcoe/golden-horse EMNLP-2015 命名实体识别
9 SIGHAN Bakeoff 2005 2005年 MSR/PKU bakeoff-2005 命名实体识别