Skip to content

Latest commit

 

History

History
 
 

datasets

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

推荐系统数据集

这是PaddleRec的数据集的的存储库。您可以在这里方便的一键下载我们处理完成的数据集,也可以使用PaddleRec轻松测试这些数据集上不同推荐模型的性能。

数据集的使用方法

在PaddleRec/datasets目录下,您可以看到很多放置数据集的子目录,每个目录下都有一个run.sh脚本。执行下面的命令运行脚本即可一键下载预处理完成的数据集。

cd xxx      # xxx为您需要下载的数据集目录名
sh run.sh

同时,目录下也会有一个data_process.sh脚本,可以供您自己处理数据集。

cd xxx      # xxx为您需要下载的数据集目录名
sh data_process.sh

数据集简介

数据集名称 模型reader示例 简介 Reference
ag_news tagspace 496835 条来自AG新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。 ComeToMyHead
Ali-CCP:Alibaba Click and Conversion Prediction esmm 从淘宝推荐系统的真实流量日志中收集的数据集。 SIGIR(2018)
BQ dssm BQ是一个智能客服中文问句匹配数据集,该数据集是自动问答系统语料,共有120,000对句子对,并标注了句子对相似度值。数据中存在错别字、语法不规范等问题,但更加贴近工业场景 The BQ Corpus: A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification
Census-income Data ple 此数据集包含从1994年和1995年美国人口普查局进行的当前人口调查中提取的加权人口普查数据。数据包含人口统计和就业相关变量。 Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid
Criteo wide_deep 该数据集包括两部分:训练集和测试集。训练集包含一段时间内Criteo的部分流量,测试集则对应训练数据后一天的广告点击流量。 kaggle
letor07 match-pyramid LETOR是一套用于学习排名研究的基准数据集,其中包含标准特征、相关性判断、数据划分、评估工具和若干基线 LETOR: Learning to Rank for Information Retrieval
senti_clas textcnn 情感倾向分析(Sentiment Classification,简称Senta)针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感类型分为积极、消极。情感倾向分析能够帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有利的决策支持 --
one_billion word2vec 拥有十亿个单词基准,为语言建模实验提供标准的训练和测试 One Billion Word Benchmark for Measuring Progress in Statistical Language Modeling
MIND naml MIND即MIcrosoft News Dataset的简写,MIND里的数据来自Microsoft News用户的行为日志。MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。 Microsoft(2020)
movielens_pinterest_NCF NCF 论文原作者处理过的movielens数据集和pinterest数据集,github 《Neural Collaborative Filtering 》
Anime -- 该数据集包含73,516个用户对12,294个动漫的用户偏好数据。每个用户都可以将动漫添加到列表中并给它一个评分,该数据集是这些评分的汇总。 Kaggle
LFM-1b -- 此数据集包含由Last.FM的120,000多个用户创建的十亿多个音乐收听记录。每条收听记录均以艺术家,专辑和曲目名称为特征,并包含一个时间戳。 ICMR 2016
LFM-1b UGP -- LFM-1b数据集的用户类型档案,作为LFM-1b的补充扩展 ISM 2017
Jester -- 此数据集包含Jester Joke Recommender系统用户对笑话的匿名评分。 UC Berkeley
Steam -- 该数据集是Steam的评论和游戏信息,其中包含7,793,069条评论,2,567,538位用户和32,135个游戏。除评论文本外,数据还包括每个评论中用户的游戏时间。 ICDM 2018
Douban -- 豆瓣电影是一个中文网站,允许互联网用户分享他们对电影的评论和观点。用户可以在电影上发表简短或长时间的评论并给他们打分。该数据集包含“豆瓣电影”网站中28部电影的200万条简短评论。 Kaggle
TaFeng -- 该数据集包含2000年11月至2001年2月中国杂货店的交易数据。 Kaggle
Retailrocket -- 数据是从真实的电子商务网站中收集的。它是原始数据,即没有任何内容转换,但是,由于保密问题,所有值都被哈希化。 Kaggle
Netflix -- 这是Netflix竞赛中使用的官方数据集。 Kaggle
FourSquare -- 此数据集包含在纽约和东京进行的大约10个月收集的签到。每个签到都有其时间戳,GPS坐标及其语义相关联。 Kaggle
AmazonBook mind 论文原作者处理过的AmazonBook数据集,github 《Controllable Multi-Interest Framework for Recommendation》
Ali_Display_Ad_Click dmr 预处理过的Alimama数据集 Deep Match to Rank Model for Personalized Click-Through Rate Prediction
omniglot maml 预处理过的omniglot数据集 Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
LastFM -- 提供音乐推荐的数据集,对于数据集中的每个用户,包含他们最受欢迎的艺术家的列表以及播放次数 HetRec 2011
Epinions -- Epinions数据集由一个普通消费者评论网站Epinions.com的who信任who在线社交网络构建 Epinions
Yelp -- Yelp数据集是我们用于个人,教育和学术目的的业务,评论和用户数据的子集。以JSON文件形式提供,可用于在学习如何制作移动应用程序的同时,教给学生有关数据库,学习NLP或用于样例生产数据的信息。 Yelp
book-crossing -- Book-Crossings是由Cai-Nicolas Ziegler根据 bookcrossing.com 的数据编写的图书评分数据集。 IIF
Pinterest -- Pinterest数据集包含超过100万张与Pinterest用户相关联的图像。 Learning Image and User Features for Recommendation in Social Networks
Gowalla -- Gowalla是一个基于位置的社交网站,用户可以通过登录来分享自己的位置 SNAP
YOOCHOOSE -- 欧洲一家在线零售商用户的点击和购买行为. ACM
Avazu -- 按时间顺序排列的10天点击率数据. kaggle
Phishing_Websites -- 预测网络钓鱼网站有效的特征. Phishing_Websites
Adult -- 部分1994年人口普查数据库. Adult
Taobao -- 淘宝网用户行为数据. Ali
JD -- 来自京东的用户行为数据,用于流媒体推荐. JD
movielens -- 电影推荐数据集. movielens
Imagenet -- ImageNet项目是一个大型视觉数据库,用于视觉目标识别研究任务,该项目已手动标注了 1400 多万张图像. Imagenet