Name		Name	Last commit message	Last commit date
parent directory ..
Adult		Adult
Ali_Display_Ad_Click		Ali_Display_Ad_Click
AmazonBook		AmazonBook
Anime		Anime
Avazu		Avazu
BQ_dssm		BQ_dssm
BQ_simnet		BQ_simnet
Douban		Douban
Epinions		Epinions
FourSquare		FourSquare
Gowalla		Gowalla
Imagenet		Imagenet
JD		JD
Jester		Jester
LFM_1b		LFM_1b
LFM_1b_UGP		LFM_1b_UGP
LastFM		LastFM
MIND/data		MIND/data
Netflix		Netflix
Phishing_Websites		Phishing_Websites
Pinterest		Pinterest
Retailrocket		Retailrocket
Steam		Steam
TaFeng		TaFeng
Taobao		Taobao
YOOCHOOSE		YOOCHOOSE
Yelp		Yelp
ag_news		ag_news
ali-ccp		ali-ccp
amazonElec_Din		amazonElec_Din
book-crossing		book-crossing
census		census
criteo		criteo
criteo_lr		criteo_lr
letor07		letor07
movielens		movielens
movielens_pinterest_NCF		movielens_pinterest_NCF
omniglot		omniglot
one_billion		one_billion
senti_clas		senti_clas
__init__.py		__init__.py
readme.md		readme.md

readme.md

推荐系统数据集

这是PaddleRec的数据集的的存储库。您可以在这里方便的一键下载我们处理完成的数据集，也可以使用PaddleRec轻松测试这些数据集上不同推荐模型的性能。

数据集的使用方法

在PaddleRec/datasets目录下，您可以看到很多放置数据集的子目录，每个目录下都有一个run.sh脚本。执行下面的命令运行脚本即可一键下载预处理完成的数据集。

cd xxx      # xxx为您需要下载的数据集目录名
sh run.sh

同时，目录下也会有一个data_process.sh脚本，可以供您自己处理数据集。

cd xxx      # xxx为您需要下载的数据集目录名
sh data_process.sh

数据集简介

数据集名称	模型reader示例	简介	Reference
ag_news	tagspace	496835 条来自AG新闻语料库 4 大类别超过 2000 个新闻源的新闻文章，数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。	ComeToMyHead
Ali-CCP：Alibaba Click and Conversion Prediction	esmm	从淘宝推荐系统的真实流量日志中收集的数据集。	SIGIR(2018)
BQ	dssm	BQ是一个智能客服中文问句匹配数据集，该数据集是自动问答系统语料，共有120,000对句子对，并标注了句子对相似度值。数据中存在错别字、语法不规范等问题，但更加贴近工业场景	The BQ Corpus: A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification
Census-income Data	ple	此数据集包含从1994年和1995年美国人口普查局进行的当前人口调查中提取的加权人口普查数据。数据包含人口统计和就业相关变量。	Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid
Criteo	wide_deep	该数据集包括两部分：训练集和测试集。训练集包含一段时间内Criteo的部分流量，测试集则对应训练数据后一天的广告点击流量。	kaggle
letor07	match-pyramid	LETOR是一套用于学习排名研究的基准数据集，其中包含标准特征、相关性判断、数据划分、评估工具和若干基线	LETOR: Learning to Rank for Information Retrieval
senti_clas	textcnn	情感倾向分析（Sentiment Classification，简称Senta）针对带有主观描述的中文文本，可自动判断该文本的情感极性类别并给出相应的置信度。情感类型分为积极、消极。情感倾向分析能够帮助企业理解用户消费习惯、分析热点话题和危机舆情监控，为企业提供有利的决策支持	--
one_billion	word2vec	拥有十亿个单词基准，为语言建模实验提供标准的训练和测试	One Billion Word Benchmark for Measuring Progress in Statistical Language Modeling
MIND	naml	MIND即MIcrosoft News Dataset的简写，MIND里的数据来自Microsoft News用户的行为日志。MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。	Microsoft(2020)
movielens_pinterest_NCF	NCF	论文原作者处理过的movielens数据集和pinterest数据集，github	《Neural Collaborative Filtering 》
Anime	--	该数据集包含73,516个用户对12,294个动漫的用户偏好数据。每个用户都可以将动漫添加到列表中并给它一个评分，该数据集是这些评分的汇总。	Kaggle
LFM-1b	--	此数据集包含由Last.FM的120,000多个用户创建的十亿多个音乐收听记录。每条收听记录均以艺术家，专辑和曲目名称为特征，并包含一个时间戳。	ICMR 2016
LFM-1b UGP	--	LFM-1b数据集的用户类型档案,作为LFM-1b的补充扩展	ISM 2017
Jester	--	此数据集包含Jester Joke Recommender系统用户对笑话的匿名评分。	UC Berkeley
Steam	--	该数据集是Steam的评论和游戏信息，其中包含7,793,069条评论，2,567,538位用户和32,135个游戏。除评论文本外，数据还包括每个评论中用户的游戏时间。	ICDM 2018
Douban	--	豆瓣电影是一个中文网站，允许互联网用户分享他们对电影的评论和观点。用户可以在电影上发表简短或长时间的评论并给他们打分。该数据集包含“豆瓣电影”网站中28部电影的200万条简短评论。	Kaggle
TaFeng	--	该数据集包含2000年11月至2001年2月中国杂货店的交易数据。	Kaggle
Retailrocket	--	数据是从真实的电子商务网站中收集的。它是原始数据，即没有任何内容转换，但是，由于保密问题，所有值都被哈希化。	Kaggle
Netflix	--	这是Netflix竞赛中使用的官方数据集。	Kaggle
FourSquare	--	此数据集包含在纽约和东京进行的大约10个月收集的签到。每个签到都有其时间戳，GPS坐标及其语义相关联。	Kaggle
AmazonBook	mind	论文原作者处理过的AmazonBook数据集,github	《Controllable Multi-Interest Framework for Recommendation》
Ali_Display_Ad_Click	dmr	预处理过的Alimama数据集	Deep Match to Rank Model for Personalized Click-Through Rate Prediction
omniglot	maml	预处理过的omniglot数据集	Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
LastFM	--	提供音乐推荐的数据集,对于数据集中的每个用户，包含他们最受欢迎的艺术家的列表以及播放次数	HetRec 2011
Epinions	--	Epinions数据集由一个普通消费者评论网站Epinions.com的who信任who在线社交网络构建	Epinions
Yelp	--	Yelp数据集是我们用于个人，教育和学术目的的业务，评论和用户数据的子集。以JSON文件形式提供，可用于在学习如何制作移动应用程序的同时，教给学生有关数据库，学习NLP或用于样例生产数据的信息。	Yelp
book-crossing	--	Book-Crossings是由Cai-Nicolas Ziegler根据 bookcrossing.com 的数据编写的图书评分数据集。	IIF
Pinterest	--	Pinterest数据集包含超过100万张与Pinterest用户相关联的图像。	Learning Image and User Features for Recommendation in Social Networks
Gowalla	--	Gowalla是一个基于位置的社交网站，用户可以通过登录来分享自己的位置	SNAP
YOOCHOOSE	--	欧洲一家在线零售商用户的点击和购买行为.	ACM
Avazu	--	按时间顺序排列的10天点击率数据.	kaggle
Phishing_Websites	--	预测网络钓鱼网站有效的特征.	Phishing_Websites
Adult	--	部分1994年人口普查数据库.	Adult
Taobao	--	淘宝网用户行为数据.	Ali
JD	--	来自京东的用户行为数据，用于流媒体推荐.	JD
movielens	--	电影推荐数据集.	movielens
Imagenet	--	ImageNet项目是一个大型视觉数据库，用于视觉目标识别研究任务，该项目已手动标注了 1400 多万张图像.	Imagenet

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

datasets

datasets

readme.md

推荐系统数据集

数据集的使用方法

数据集简介

Files

datasets

Directory actions

More options

Directory actions

More options

Latest commit

History

datasets

Folders and files

parent directory

readme.md

推荐系统数据集

数据集的使用方法

数据集简介