- Ing. Patricia Reyes Silva
- email: preyespe.uoc@gmail.com
- La preparación y validación de datos, es una fase muy importante durante el desarrollo y ciclo de vida de los datos.
- A partir de este desarrollo, se pretende a aprender a identificar los datos relevantes para un proyecto analítico y usar las herramientas de integración, limpieza, validación y análisis.
- Este proyecto se desarrolla como Práctica #2 de la asignatura: "Tipologia y ciclo de vida de los datos",
- Máster de Data Science.
- Universitat Oberta of Catalunya.
- Consultora: Mireia Calvo Gonzalez
"El hundimiento del RMS Titanic es uno de los naufragios más infames de la historia. El 15 de abril de 1912, durante su viaje inaugural, el Titanic se hundió después de colisionar con un iceberg, matando a 1502 de 2224 pasajeros y tripulantes. Esta sensacional tragedia conmocionó a la comunidad internacional y condujo a mejores regulaciones de seguridad para los buques. Una de las razones por las que el naufragio provocó tal pérdida de vidas fue que no había suficientes botes salvavidas para los pasajeros y la tripulación. Aunque hubo algún elemento de suerte involucrado en sobrevivir al hundimiento, algunos grupos de personas tenían más probabilidades de sobrevivir que otros, como las mujeres, los niños y la clase alta"KAGGLE
Este trabajo utiliza los datos proporcionados por la plataforma de competiciones Kaggle sobre el hundimiento del Titanic. El detalle de dicho dataset se explica en la sección Wiki
El objetivo de utilizar el dataset Titanic, es el de preparar y validar sus datos para un posterior análisis y aplicación de herramientas de aprendizaje automático, a fin de predecir qué pasajeros sobrevivieron a la tragedia.
Para la preparación y validación de datos del Dataset Titanic, se han elegido las siguientes herramientas de trabajo:
- Python 3.6
- Jupyter Notebook
Si desea utilizar estas herramientas en su PC, se recomienda instalar Anaconda, software libre que contiene convenientemente: Python, el Notebook Jupyter y otros paquetes comúnmente utilizados para informática científica y ciencia de datos.
El contenido de este proyecto se licencia bajo la Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International, y el código fuente usado para mostrar este contenido esta licenciado bajo la MIT license.