1 |
[2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) |
2018年7月 |
达观数据 |
|
数据集来源于达观数据,为长文本分类任务,其主要包括了id,article,word_seg和class四个字段,数据包含19个类别,共102275条样本 |
长文本;脱敏 |
文本分类 |
\ |
中文 |
2 |
今日头条中文新闻(文本)分类 |
2018年5月 |
今日头条 |
|
数据集来源于今日头条,为短文本分类任务,数据包含15个类别,共382688条样本 |
短文本;新闻 |
文本分类 |
\ |
中文 |
3 |
THUCNews中文文本分类 |
2016年 |
清华大学 |
|
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,共74万篇新闻文档(2.19 GB) |
文档;新闻 |
文本分类 |
\ |
中文 |
4 |
复旦大学中文文本分类 |
\ |
复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 |
|
数据集来源于复旦大学,为短文本分类任务,数据包含20个类别,共9804篇文档 |
文档;新闻 |
文本分类 |
\ |
中文 |
5 |
新闻标题短文本分类 |
2019年12月 |
chenfengshf |
CC0 公共领域共享 |
数据集来源于Kesci平台,为新闻标题领域短文本分类任务。内容大多为短文本标题(length<50),数据包含15个类别,共38w条样本 |
短文本;新闻标题 |
文本分类 |
\ |
中文 |
6 |
2017 知乎看山杯机器学习挑战赛 |
2017年6月 |
中国人工智能学会;知乎 |
|
数据集来源于知乎,为问题及话题标签的绑定关系的标注数据,每个问题有 1 个或多个标签,累计1999 个标签,共包含 300 万个问题 |
问题;短文本 |
文本分类 |
\ |
中文 |
7 |
2019之江杯-电商评论观点挖掘大赛 |
2019年8月 |
之江实验室 |
|
本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度 |
评论;短文本 |
文本分类 |
\ |
中文 |
8 |
IFLYTEK' 长文本分类 |
\ |
科大讯飞 |
|
该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别 |
长文本 |
文本分类 |
\ |
中文 |
9 |
全网新闻分类数据(SogouCA) |
2012年8月16号 |
搜狗 |
|
该数据来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 |
新闻 |
文本分类 |
\ |
中文 |
10 |
搜狐新闻数据(SogouCS) |
2012年8月 |
搜狗 |
|
数据来源为搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 |
新闻 |
文本分类 |
\ |
中文 |
11 |
中科大新闻分类语料库 |
2017年11月 |
刘禹 中国科学院自动化研究所综合信息中心 |
|
暂时不能下载,已经联系作者,等待反馈 |
新闻 |
|
|
|
12 |
ChnSentiCorp_htl_all |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 |
|
|
|
|
13 |
waimai_10k |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 |
|
|
|
|
14 |
online_shopping_10_cats |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 |
|
|
|
|
15 |
weibo_senti_100k |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 |
|
|
|
|
16 |
simplifyweibo_4_moods |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 |
|
|
|
|
17 |
dmsc_v2 |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
|
|
|
|
18 |
yf_dianping |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
24 万家餐馆,54 万用户,440 万条评论/评分数据 |
|
|
|
|
19 |
yf_amazon |
2018年3月 |
https://github.com/SophonPlus/ChineseNlpCorpus |
|
52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
|
|
|
|