Skip to content

Proceso ETL con el dataset de Titanic y carga en base de datos SQLite.

License

Notifications You must be signed in to change notification settings

SebaB29/Titanic

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Titanic 🛳️

Trabajo Práctico para la materia Base de Datos (TA044)

📑Contenido

  1. Descripción
  2. Integrantes
  3. Objetivos
  4. Análisis Exploratorio
  5. Preprocesamiento
  6. Conclusiones

📄Descripción

Este trabajo práctico consiste en desarrollar una aplicación que implemente el proceso de ETL (Extract, Transform, Load) sobre un conjunto de datos. El objetivo es limpiar, transformar y cargar los datos en una base de datos SQLite, garantizando que estén listos para ser utilizados en análisis posteriores. Para esto, se ha seleccionado el famoso dataset de Titanic, disponible en Kaggle.

Dataset: https://www.kaggle.com/datasets/akshaysehgal/titanic-data-for-data-preprocessing

👥Integrantes

Nombre
Sebastián Brizuela
Victoria Avalos
Gonzalo Manuel Calderón
Mateo Liberini
Franco Agustín Rodriguez
Urbano Sol Guadalupe

🎯Objetivos

  • Implementar un flujo de trabajo ETL que incluya la extracción, transformación y carga de datos.
  • Resolver problemas típicos de los datos, como valores nulos, duplicados y formatos inconsistentes.
  • Garantizar que los datos estén listos para ser cargados y utilizados en una base de datos SQLite.

🔍Análisis Exploratorio

El análisis comenzó con el dataset de Titanic, el cual contiene información relevante de los pasajeros, como edad, sexo, y si sobrevivieron o no. Se realizó un análisis exploratorio para obtener una vista general del dataset, observando la cantidad de filas, columnas y valores faltantes. Además, se generaron visualizaciones de la distribución de los datos y las relaciones entre las variables, como un boxplot para la distribución de la edad por sexo y un gráfico de barras para los valores nulos por columna.

🛠️Preprocesamiento

Durante el preprocesamiento se tomaron varias decisiones clave:

  • Eliminación de columnas redundantes como male, class, y deck (debido a gran cantidad de valores nulos).
  • Imputación de valores nulos en la columna age basados en el promedio por sexo.
  • Eliminación de filas duplicadas, manteniendo un registro por pasajero y añadiendo una columna extra con el número de duplicados.
  • Normalización de los datos para asegurar consistencia en el formato.
  • Finalmente, los datos se cargaron en una base de datos SQLite.

📝Conclusiones

El proceso de ETL permitió identificar problemas en los datos, como valores faltantes, redundancias y duplicados, que fueron solucionados a través de técnicas de preprocesamiento. La base de datos resultante está lista para consultas SQL, lo que permite realizar análisis avanzados de manera eficiente. Este proyecto destacó la importancia de un correcto flujo de ETL en la preparación de datos para su análisis y visualización.

📄 Licencia

Este proyecto está bajo la licencia MIT. Para más detalles, consulta el archivo LICENSE.

About

Proceso ETL con el dataset de Titanic y carga en base de datos SQLite.

Topics

Resources

License

Stars

Watchers

Forks