Skip to content

Final Data Science group project for Henry Bootcamp. Developed data solutions for Olist, an ecommerce brazilian startup, including a Dashboard in PowerBI, a forecasting model deployed on Streamlit and a web app for remote access.

Notifications You must be signed in to change notification settings

nicolazarte2894/Proyecto-Final-DATA

 
 

Repository files navigation

PROYECTO FINAL - DATA SCIENCE

ia

🔹Introducción

Les damos la bienvenida al repositorio del proyecto E-commerce Olist , en el marco del desarrollo del trabajo final y grupal para la carrera de Data Science en Henry.

🔹 Rol a desarrollar

Contratados por la empresa Brasileña Olist, vamos a situarnos en el rol de consultores externos pertenecientes a Racont, una empresa especializada en Datos.

🔹 Objetivos

Objetivos Generales

  • Entender el funcionamiento del mercado ecommerce y el negocio de Olist. Diagnosticar su contexto actual.
  • Identificar patrones de comportamiento de los usuarios de Olist (Pymes y clientes).
  • Descubrir oportunidades de crecimiento para el negocio.
  • Buscar posibles soluciones que permitan a los usuarios de la plataforma vender sus productos a un mayor número de clientes.

Objetivos Específicos

  • Analizar los procesos de compra, venta y logística del negocio. Conocer la distribución geográfica de ventas en Brasil.
  • Descubrir factores que influyen en el abandono de los procesos de compra y/o que producen insatisfacción de los clientes.
  • Analizar la interacción entre los clientes, Olist y las pequeñas y medianas empresas.

🔹 Desarrollo del proyecto

  • Al tratarse de un proyecto grupal nos organizamos para trabajar divididos en 3 áreas: Ingeniería de datos, Análisis de datos y Machine Learning.

  • Partimos de un dataset que contenía 11 tablas, proporcionado por Olist, con datos que abarcan desde el año 2016 hasta el año 2018.

  • El período de tiempo en el que se desarrollo el proyecto fue de casi 1 mes y dentro de la carpeta Informes pueden encontrar los reportes detallados de las actividades realizadas en cada Sprint (duración de cada sprint: 1 semana).

  • Las tareas más relevantes fueron las siguientes:

Ingeniería de datos

  • Informe EDA (Exploratory Data Analysis), pueden encontrar el análisis de cada tabla en: EDA.
  • Creación del Data Warehouse junto con el Modelo Entidad-Relación: DataWarehouse.
  • Pipeline de ETL (Extract, Transform and Load), donde el archivo carga_inicial.py genera la carga de los datos ya limpios en el Data Warehouse.
  • Escalabilidad on Cloud, pensando en un futuro manejo de grandes cantidades de datos. En la carpeta Airflow podrán encontrar los scripts con el pipeline que permite la carga incremental, con un gestión del flujo orquestado a través de Apache Airflow.

Análisis de datos

  • Estudiar el contexto socio económico de Brasil y su relación con los datos.
  • Creación de un Dashboard con distintos KPIs, que permiten medir el rendimiento actual y futuro de la empresa.

Machine Learning

  • Elección y desarrollo de un modelo de Machine Learning, en este caso elegimos un modelo de Forecasting para la predicción de ventas futuras.

Desarrollo de un MVP

  • Presentación de un producto final al cliente .

🔹 Plataforma - MVP

Funcionalidades de la plataforma: (Acceda a la app web haciendo click en el gif)

  • Links extras del mismo producto

  • Home: página de inicio con una breve descripción del proyecto y de nuestra consultora (about us)

  • Productos: 4 tarjetas que tienen links que nos llevan a diferentes páginas: Dashboard Modelo de ML Reporte del Análisis de datos Repositorio de Github

  • Equipo de trabajo: integrantes y sus respectivos roles en el desarrollo del projecto.

🔹 Equipo de Trabajo

  • Emma ANALISTA FUNCIONAL

  • Julio ANALISTA DE DATOS

  • Nico CIENTÍFICO DE DATOS

  • Meli PROJECT MANAGER E INGENIERA DE DATOS

  • Isaac INGENIERO DE DATOS

🔹 Stack tecnológico

Herramientas de colaboración y gestión de proyectos

  • Discord Google meet
  • Asana

Ingenieria de datos: EDA, ETL, DATAWAREHOUSE

  • Python python Pandas
  • Matplotlib Seaborn
  • SQLAlchemy PostgreSQL

Análisis de datos: Business Intelligence y Machine Learning

  • Python python Pandas SQLAlchemy Plotly
  • Prophet
  • PowerBI

Escalabilidad On Cloud

  • Azure Data Factory
  • Databricks
  • Airflow

Producto Final MVP - Minimum Viable Product

  • HTMLHTML CSS css JavaScript Java_Js
  • Bootstrap
  • Streamlit

Gracias por leer hasta el final! 😁

Esperamos que hayas disfrutado aprendiendo sobre nuestro proyecto! No dudes en contactarnos para recibir más información, nos encantaría escuchar tus comentarios y sugerencias.

About

Final Data Science group project for Henry Bootcamp. Developed data solutions for Olist, an ecommerce brazilian startup, including a Dashboard in PowerBI, a forecasting model deployed on Streamlit and a web app for remote access.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 98.8%
  • Other 1.2%