Skip to content

本项目分别电商数据统计模块及业务采集及数仓搭建模块,利用hive统计每个区域热门商品进行统计;依据业务数据实现离线业务数仓搭建。

Notifications You must be signed in to change notification settings

GoAlers/Bigdata_Eshop

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Bigdata_Eshop

本项目分别电商数据统计模块及业务采集及数仓搭建模块,利用hive统计每个区域热门商品进行统计;依据业务数据实现离线业务数仓搭建。
项目详解链接:https://blog.csdn.net/qq_36816848/article/details/113865910

一、电商热门商品统计项目

项目描述:模拟常规电商
数仓分析流程,利用hive、spark统计对用户行为日志及区域热门商品进行统计,支持用户决策。依据业务数据实现离线业务数仓导入及分层实现离线数仓搭建,实时数仓部分后续更新。

本项目总共分为三个模块,分别是:

一、电商热门商品统计模块

二、业务采集导入模块

三、离线数仓搭建模块

(一)项目介绍

针对常规电商网站进行大数据分析,对每个区域热门商品进行统计,支持用户决策。

项目流程及框架:Python-->Flume-->HDFS-->Mapreduce/Spark ETL-->HDFS-->Hive-->Sqoop-->Mysql

1.数据采集(ETL)

电商日志一般存储在日志服务器,通过 Flume 拉取到 HDFS 上,本文通过编写python程序模拟日志数据。

业务数据通过 Sqoop 从关系型数据库mysql中读取数据,然后导入到HDFS。

因为要访问数据库,所以会对数据库造成很大的压力,而且在真实的生产环境中,一般没有权限直接访问数据库。可以把数据导出成csv文件,放到日志服务器上,再通过Flume采集到HDFS上。假如有权限访问数据库,数据库也需要设置成读写分离的模式,来缓解压力。

2.数据清洗

使用 MapReduce 进行数据清洗。

使用 Spark Core 进行数据清洗。

3.各区域热门商品计算

使用 Hive 进行数据的分析和处理。

使用 Spark SQL 进行数据的分析和处理

4.数仓搭建

About

本项目分别电商数据统计模块及业务采集及数仓搭建模块,利用hive统计每个区域热门商品进行统计;依据业务数据实现离线业务数仓搭建。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published