【数据源】: 这是一个链接哦^_^ .
数据集来自一个在英国注册的没有实体店的电子零售公司,在2010年12月1日到2011年12月9日期间发生的网络交易数据。
- 本次分析为了保证完整性,故选取一整年的交易数据,即从2010年12月1日到2011年12月1日期间的数据。
- 原数据集以xlsx格式存储,总共有541909条数据,8个字段,为了后续方便,本次转换为了csv格式。
本项目是价值用户挖掘,针对Kaggle的英国电商用户消费行为数据电影数据进行分析和挖掘,使用Kmeans、RFM模型进行用户细分等。这个数据集的特征如下表所示:
数据字段介绍
Features | Description | Type | Size |
---|---|---|---|
InvoiceNo | 订单号 | String | 25900 |
StockCode | 产品编号 | String | 4070 |
Description | 产品描述 | String | NA |
Quantity | 每一笔交易中购买的产品数量 | integer | NA |
InvoiceDate | 交易的时间和日期 | datetime | NA |
UnitPrice | 产品单价 | float | NA |
CustomerID | 用户ID | String | NA |
Country | 用户所在国家 | String | NA |
- 描述统计分析
- 数据类型转换
- 缺失值、异常值处理
-
整体运营指标
- 目的:了解电子零售商当前的运营状态
-
产品指标
- 目的:了解产品的优劣
-
RFM 模型指标 / Kmeans 模型
- 目的: 挖掘潜在价值用户,指导运营策略的设计与执行
-
价值用户行为指标 -目的:了解用户的消费习惯
- RFM 用户价值模型
- Kmeans 机器学习模型
- PCA 降维可视化分析
- Silhouette Coefficient
- Calinski-Harabaz Index
本项目是针对2019新型冠状肺炎的各地疫情(全球)的数据获取及可视化,针对数据集为爬虫抓取新冠肺炎疫情数据集。这个数据集的特征如下表所示:
特征名称 | 说明 |
---|---|
areaTree | 这个节点下面包全世界数据,中国数据到市级的数据,是最详细的 |
lastUpdateTime | 最后更新时间 |
chinaTotal | 国内累计值 |
chinaAdd | 国内每日新增 |
confirm | 确诊 |
heal | 治愈 |
dead | 死亡 |
nowConfirm | 现有确诊 |
suspect | 疑似 |
nowSevere | 重症 |
chinaDayList | 每日人数汇总历史数据 |
chinaDayAddList | 每日新增人数历史数据 |
dailyNewAddHistory | 每日新增人数历史数据,分湖北、非湖北、全国三个维度 |
articleList | 每日新发布新闻 |
本项目是数据的EDA探索+业务分析。 本数据集共有 7 万条左右数据,数据为 CDNow 网站 1997年1月至1998年6月的用户行为数据,共计 4 列字段,分别是:
特征名称 | 说明 |
---|---|
user_id | 用户唯一ID |
order_dt | 用户购买日期 |
order_products | 用户订购产品的数量 |
order_amount | 用户订购金额 |
分别观察了数据集的数据分布、对数据进行预处理(数据类型转换、缺失值、异常值处理)等。
- 用户消费趋势进行分析(按月)
- 用户个体消费分析
- 用户消费行为分析
- 指标生成及分析
- 总结与意见
本项目是数据的EDA,针对Kaggle的IMDB电影数据进行分析,探索变量之间的相关性、电影的发展趋势等。这个数据集的特征如下表所示:
特征名称 | 说明 |
---|---|
imdb_id | IMDB 标识号 |
popularity | 在 Movie Database 上的相对页面查看次数 |
budget | 预算(美元) |
revenue | 收入(美元) |
original_title | 电影名称 |
cast | 演员列表,按 |
homepage | 电影首页的 URL |
director | 导演列表,按 |
tagline | 电影的标语 |
keywords | 与电影相关的关键字,按 |
overview | 剧情摘要 |
runtime | 电影时长 |
genres | 风格列表,按 |
production_companies | 制作公司列表,按 |
release_date | 首次上映日期 |
vote_count | 评分次数 |
vote_average | 平均评分 |
release_year | 发行年份 |
budget_adj | 根据通货膨胀调整的预算(2010 年,美元) |
revenue_adj | 根据通货膨胀调整的收入(2010 年,美元) |