Les damos la bienvenida al repositorio del proyecto E-commerce Olist , en el marco del desarrollo del trabajo final y grupal para la carrera de Data Science en Henry.
Contratados por la empresa Brasileña Olist, vamos a situarnos en el rol de consultores externos pertenecientes a Racont, una empresa especializada en Datos.
Objetivos Generales
- Entender el funcionamiento del mercado ecommerce y el negocio de Olist. Diagnosticar su contexto actual.
- Identificar patrones de comportamiento de los usuarios de Olist (Pymes y clientes).
- Descubrir oportunidades de crecimiento para el negocio.
- Buscar posibles soluciones que permitan a los usuarios de la plataforma vender sus productos a un mayor número de clientes.
Objetivos Específicos
- Analizar los procesos de compra, venta y logística del negocio. Conocer la distribución geográfica de ventas en Brasil.
- Descubrir factores que influyen en el abandono de los procesos de compra y/o que producen insatisfacción de los clientes.
- Analizar la interacción entre los clientes, Olist y las pequeñas y medianas empresas.
-
Al tratarse de un proyecto grupal nos organizamos para trabajar divididos en 3 áreas: Ingeniería de datos, Análisis de datos y Machine Learning.
-
Partimos de un dataset que contenía 11 tablas, proporcionado por Olist, con datos que abarcan desde el año 2016 hasta el año 2018.
-
El período de tiempo en el que se desarrollo el proyecto fue de casi 1 mes y dentro de la carpeta Informes pueden encontrar los reportes detallados de las actividades realizadas en cada Sprint (duración de cada sprint: 1 semana).
-
Las tareas más relevantes fueron las siguientes:
Ingeniería de datos
- Informe EDA (Exploratory Data Analysis), pueden encontrar el análisis de cada tabla en: EDA.
- Creación del Data Warehouse junto con el Modelo Entidad-Relación: DataWarehouse.
- Pipeline de ETL (Extract, Transform and Load), donde el archivo carga_inicial.py genera la carga de los datos ya limpios en el Data Warehouse.
- Escalabilidad on Cloud, pensando en un futuro manejo de grandes cantidades de datos. En la carpeta Airflow podrán encontrar los scripts con el pipeline que permite la carga incremental, con un gestión del flujo orquestado a través de Apache Airflow.
Análisis de datos
- Estudiar el contexto socio económico de Brasil y su relación con los datos.
- Creación de un Dashboard con distintos KPIs, que permiten medir el rendimiento actual y futuro de la empresa.
Machine Learning
- Elección y desarrollo de un modelo de Machine Learning, en este caso elegimos un modelo de Forecasting para la predicción de ventas futuras.
Desarrollo de un MVP
- Presentación de un producto final al cliente .
Funcionalidades de la plataforma: (Acceda a la app web haciendo click en el gif)
-
Links extras del mismo producto
-
Home: página de inicio con una breve descripción del proyecto y de nuestra consultora (about us)
-
Productos: 4 tarjetas que tienen links que nos llevan a diferentes páginas: Dashboard Modelo de ML Reporte del Análisis de datos Repositorio de Github
-
Equipo de trabajo: integrantes y sus respectivos roles en el desarrollo del projecto.
Herramientas de colaboración y gestión de proyectos
Ingenieria de datos: EDA, ETL, DATAWAREHOUSE
Análisis de datos: Business Intelligence y Machine Learning
Escalabilidad On Cloud
Producto Final MVP - Minimum Viable Product
Esperamos que hayas disfrutado aprendiendo sobre nuestro proyecto! No dudes en contactarnos para recibir más información, nos encantaría escuchar tus comentarios y sugerencias.