Skip to content

Latest commit

 

History

History
11 lines (11 loc) · 4.09 KB

README.md

File metadata and controls

11 lines (11 loc) · 4.09 KB
标题 链接 数据集更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
CCKS2017中文电子病例命名实体识别 https://biendata.com/competition/CCKS2017_2/data/ 2017年5月 北京极目云健康科技有限公司 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 电子病历 命名实体识别 \ 中文
CCKS2018中文电子病例命名实体识别 https://biendata.com/competition/CCKS2018_1/data/ 2018年 医渡云(北京)技术有限公司 CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 电子病历 命名实体识别 \ 中文
微软亚研院MSRA命名实体识别识别数据集 https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra \ MSRA 数据来源于MSRA,标注形式为BIO,共有46365条语料 Msra 命名实体识别 \ 中文
1998人民日报语料集实体识别标注集 https://github.com/ThunderingII/nlp_ner/tree/master/data 1998年1月 人民日报 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 98人民日报 命名实体识别 \ 中文
Boson https://github.com/TomatoTang/BILSTM-CRF \ 玻森数据 数据来源为Boson,标注形式为BMEO,共有2000条语料 Boson 命名实体识别 \ 中文
CLUE Fine-Grain NER https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip 2020年 CLUE CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 细粒度;CULE 命名实体识别 \ 中文
CoNLL-2003 https://www.clips.uantwerpen.be/conll2003/ner/ 2003 CNTS - Language Technology Group 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 CoNLL-2003 命名实体识别 https://www.aclweb.org/anthology/W03-0419.pdf 英文
微博实体识别 https://github.com/hltcoe/golden-horse 2015年 https://github.com/hltcoe/golden-horse EMNLP-2015 命名实体识别
SIGHAN Bakeoff 2005 http://sighan.cs.uchicago.edu/bakeoff2005/ 2005年 MSR/PKU bakeoff-2005 命名实体识别