He impartido a lo largo de varios años en la Escuela Técnica Superior de Ingeniería de Telecomunicaciones en la Universidad Politécnica de Cartagena, una asignatura optativa de introducción a Data science. Durante muchos años el lenguage de programación usado era R, pero desde el curso 2020/21, decidí pasar a Python con las librerías pandas
, matplotlib
y scikit-learn
.
Este repositorio contiene todo el material de la asignatura, para su estudio autónomo. Encontraréis los enlaces a las unidades de aprendizaje así como trabajos propuestos para practicar los conceptos de cada tema.
Nota: las unidades digitales fueron elaboradas con UPCTforma, la herramienta de autor creada por el Centro de Producción de Contenidos Digitales de la Universidad Politécnica de Cartagena, en el seno de dos proyectos Erasmus Plus, INDIe 2018-1-ES01-KA201-050924 y INDIe4All 2020-1-ES01-KA201-083177, cofinanciados por la Comisión Europea.
Para profesores: en este repositorio podréis encontrar también los ficheros fuentes de los documentos. En el directorio utilidades, están algunos scripts útiles para generar entregables etc...
Licencia: los materiales de este curso están distribuidos con la licencia Atribución-CompartirIgual 4.0 Internacional de Creative Commons. CC BY-SA 4.0.
- Preliminares: preparación Python para el curso.
- Introducción a Python.
- Introducción a Pandas.
- Combinar dataframes
- Aplicar transformaciones y calcular resúmenes por grupos
- Visualizar datos con gráficas en Matplotlib
- Regresión
- Aprendizaje máquina con Scikit-learn
- Clasificación con regresión logística
- Regularización de la función coste
- Reducción de dimensión: análisis en componentes principales
En el siguiente enlace, podéis encontrar los ficheros de datos necesarios para los trabajos y los ejemplos. Podéis descargarlos a medida que los vayáis necesitando y guardar en una carpeta data
en vuestro directorio de trabajo. También podéis indicar la url del conjunto a la hora de cargar el conjunto de datos con read_csv
de pandas
. Si optáis por esta segunda opción, tenéis que usar la url correspondiente a la versión "raw" del fichero en Github. Por ejemplo, para cargar el fichero llamado datos_cairo.csv:
import pandas as pd
cairo = pd.read_csv("https://raw.githubusercontent.com/mkesslerct/data_science_Python/main/data/datos_cairo.csv")
Unidad con instrucciones sobre preparación de Python, Anaconda y Visual Studio Code
Para facilitar la creación del entorno virtual ids
en conda, podéis usar el siguiente fichero yml
ids_environment.yml
- Unidad de introducción a Python, primeros pasos
- Funciones y métodos en Python
- Más sobre listas y diccionarios
- Introducción a Pandas:
- Seleccionar filas y columnas:
- Concatenar dataframes:
- Combinar dataframes con merge:
- Consumo eléctrico de una vivienda, resúmenes e indicadores:
- Consumo eléctrico de una vivienda, representaciones gráficas:
- Predicción de la nota media alumnos de grado:
- Predicción de la nota media alumnos de grado:
- Clasificación con regresión logística:
- Regularización con regresión y clasificación:
- Reducción de la dimensión de un conjunto de imágenes.