Trabajo Práctico para la materia Base de Datos (TA044)
Este trabajo práctico consiste en desarrollar una aplicación que implemente el proceso de ETL (Extract, Transform, Load) sobre un conjunto de datos. El objetivo es limpiar, transformar y cargar los datos en una base de datos SQLite, garantizando que estén listos para ser utilizados en análisis posteriores. Para esto, se ha seleccionado el famoso dataset de Titanic, disponible en Kaggle.
Dataset: https://www.kaggle.com/datasets/akshaysehgal/titanic-data-for-data-preprocessing
| Nombre |
|---|
| Sebastián Brizuela |
| Victoria Avalos |
| Gonzalo Manuel Calderón |
| Mateo Liberini |
| Franco Agustín Rodriguez |
| Urbano Sol Guadalupe |
- Implementar un flujo de trabajo ETL que incluya la extracción, transformación y carga de datos.
- Resolver problemas típicos de los datos, como valores nulos, duplicados y formatos inconsistentes.
- Garantizar que los datos estén listos para ser cargados y utilizados en una base de datos SQLite.
El análisis comenzó con el dataset de Titanic, el cual contiene información relevante de los pasajeros, como edad, sexo, y si sobrevivieron o no. Se realizó un análisis exploratorio para obtener una vista general del dataset, observando la cantidad de filas, columnas y valores faltantes. Además, se generaron visualizaciones de la distribución de los datos y las relaciones entre las variables, como un boxplot para la distribución de la edad por sexo y un gráfico de barras para los valores nulos por columna.
Durante el preprocesamiento se tomaron varias decisiones clave:
- Eliminación de columnas redundantes como
male,class, ydeck(debido a gran cantidad de valores nulos). - Imputación de valores nulos en la columna
agebasados en el promedio por sexo. - Eliminación de filas duplicadas, manteniendo un registro por pasajero y añadiendo una columna extra con el número de duplicados.
- Normalización de los datos para asegurar consistencia en el formato.
- Finalmente, los datos se cargaron en una base de datos SQLite.
El proceso de ETL permitió identificar problemas en los datos, como valores faltantes, redundancias y duplicados, que fueron solucionados a través de técnicas de preprocesamiento. La base de datos resultante está lista para consultas SQL, lo que permite realizar análisis avanzados de manera eficiente. Este proyecto destacó la importancia de un correcto flujo de ETL en la preparación de datos para su análisis y visualización.
Este proyecto está bajo la licencia MIT. Para más detalles, consulta el archivo LICENSE.