Skip to content

Latest commit

 

History

History
 
 

文本分类

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
ID 标题 数据集更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) 2018年7月 达观数据 数据集来源于达观数据,为长文本分类任务,其主要包括了id,article,word_seg和class四个字段,数据包含19个类别,共102275条样本 长文本;脱敏 文本分类 \ 中文
2 今日头条中文新闻(文本)分类 2018年5月 今日头条 数据集来源于今日头条,为短文本分类任务,数据包含15个类别,共382688条样本 短文本;新闻 文本分类 \ 中文
3 THUCNews中文文本分类 2016年 清华大学 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,共74万篇新闻文档(2.19 GB) 文档;新闻 文本分类 \ 中文
4 复旦大学中文文本分类 \ 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 数据集来源于复旦大学,为短文本分类任务,数据包含20个类别,共9804篇文档 文档;新闻 文本分类 \ 中文
5 新闻标题短文本分类 2019年12月 chenfengshf CC0 公共领域共享 数据集来源于Kesci平台,为新闻标题领域短文本分类任务。内容大多为短文本标题(length<50),数据包含15个类别,共38w条样本 短文本;新闻标题 文本分类 \ 中文
6 2017 知乎看山杯机器学习挑战赛 2017年6月 中国人工智能学会;知乎 数据集来源于知乎,为问题及话题标签的绑定关系的标注数据,每个问题有 1 个或多个标签,累计1999 个标签,共包含 300 万个问题 问题;短文本 文本分类 \ 中文
7 2019之江杯-电商评论观点挖掘大赛 2019年8月 之江实验室 本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度 评论;短文本 文本分类 \ 中文
8 IFLYTEK' 长文本分类 \ 科大讯飞 该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别 长文本 文本分类 \ 中文
9 全网新闻分类数据(SogouCA) 2012年8月16号 搜狗 该数据来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 新闻 文本分类 \ 中文
10 搜狐新闻数据(SogouCS) 2012年8月 搜狗 数据来源为搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 新闻 文本分类 \ 中文
11 中科大新闻分类语料库 2017年11月 刘禹 中国科学院自动化研究所综合信息中心 暂时不能下载,已经联系作者,等待反馈 新闻
12 ChnSentiCorp_htl_all 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
13 waimai_10k 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条
14 online_shopping_10_cats 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
15 weibo_senti_100k 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
16 simplifyweibo_4_moods 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
17 dmsc_v2 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
18 yf_dianping 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 24 万家餐馆,54 万用户,440 万条评论/评分数据
19 yf_amazon 2018年3月 https://github.com/SophonPlus/ChineseNlpCorpus 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据