Skip to content

TodoEconometria/ejercicios-bigdata

Repository files navigation

Big Data con Python - De Cero a Producción

TodoEconometria

"Sin experiencia no hay conocimiento"

CURSO COMPLETO DE BIG DATA

GitHub Stars GitHub Forks License: MIT Python 3.8+ Deploy


Demos en Vivo

Observatorio Sísmico Global ISS Tracker
Sismos en tiempo real desde USGS API Rastrea la Estación Espacial Internacional
Ver Demo Ver Demo

Dashboards con datos reales de APIs públicas, actualizados automáticamente


El Curso en Números

230 Horas 9 Módulos 25+ Ejercicios 12+ Dashboards 30+ Tecnologías
de contenido completos prácticos interactivos profesionales

Stack Tecnológico Completo

Bases de Datos

Tecnología Nivel Qué Aprenderás
SQLite Básico Queries SQL, índices, optimización
PostgreSQL Intermedio Joins complejos, Window Functions, CTEs
Oracle Avanzado PL/SQL, procedimientos almacenados
DynamoDB Avanzado NoSQL, key-value, serverless

Procesamiento de Datos

Tecnología Cuándo Usarla Escala
Pandas Análisis exploratorio < 5 GB
Dask Datasets grandes, 1 máquina 5-100 GB
Apache Spark Clusters, producción > 100 GB
Spark Streaming Datos en tiempo real Ilimitado

Streaming y Cloud

Tecnología Propósito
Apache Kafka Streaming distribuido (KRaft mode)
Spark Structured Streaming Procesamiento de streams
LocalStack Simulación AWS local (gratis)
Terraform Infraestructura como Código
AWS S3/Lambda Almacenamiento y funciones serverless

Machine Learning e IA

Tecnología Aplicación
Scikit-learn ML clásico, clustering, clasificación
TensorFlow Deep Learning, redes neuronales
MobileNetV2 Transfer Learning, Computer Vision
ARIMA/SARIMA Series temporales, forecasting

NLP y Visualización

Tecnología Uso
NLTK Procesamiento de lenguaje natural
TF-IDF Vectorización de texto
Plotly Dashboards interactivos
Leaflet.js Mapas interactivos

Econometría

Tecnología Aplicación
linearmodels Datos de panel
Panel OLS Efectos fijos y aleatorios
Hausman Test Selección de modelo

Módulos del Curso

Módulo 1: Bases de Datos

SQLite, PostgreSQL, Oracle, migraciones

Desde tu primera query SELECT hasta procedimientos almacenados en Oracle.

Módulo 2: Limpieza de Datos y ETL

Pipeline ETL profesional, QoG Dataset (1289 variables, 194+ países)

Pipelines profesionales que procesan millones de registros.

Módulo 3: Procesamiento Distribuido

Dask, Parquet, LocalCluster

Procesamiento paralelo de datasets grandes en una sola máquina.

Módulo 4: Machine Learning

PCA, K-Means, Transfer Learning, ARIMA/SARIMA

Desde clustering hasta Computer Vision con TensorFlow y series temporales.

Módulo 5: NLP y Text Mining

NLTK, TF-IDF, Jaccard, Análisis de Sentimiento

Tokenización, limpieza, similitud de documentos y análisis de sentimiento.

Módulo 6: Análisis de Datos de Panel

Efectos Fijos, Efectos Aleatorios, Hausman Test

Análisis longitudinal con datos país x año.

Módulo 7: Infraestructura Big Data

Docker, Docker Compose, Apache Spark Cluster

Contenedores, orquestación y clusters Spark en Docker.

Módulo 8: Streaming con Kafka

Apache Kafka (KRaft), Spark Structured Streaming

Streaming en tiempo real con datos de sismos desde USGS API.

Módulo 9: Cloud con LocalStack

LocalStack, Terraform, AWS S3/Lambda/DynamoDB

Simulación de AWS sin costos e Infraestructura como Código.

Trabajo Final

Docker + Spark + PostgreSQL + Análisis Completo

Proyecto integrador de principio a fin.


Inicio Rápido

# 1. Clona tu fork
git clone https://github.com/TU_USUARIO/ejercicios-bigdata.git
cd ejercicios-bigdata

# 2. Crea entorno virtual
python -m venv .venv
.venv\Scripts\activate  # Windows
source .venv/bin/activate  # Linux/Mac

# 3. Instala dependencias
pip install -r requirements.txt

Siguiente paso: Ver documentación completa


Estructura del Repositorio

ejercicios-bigdata/
├── ejercicios/                 # Código por módulo
│   ├── 01_bases_de_datos/
│   ├── 02_limpieza_datos/
│   ├── 03_procesamiento_distribuido/
│   ├── 04_machine_learning/
│   ├── 05_nlp_text_mining/
│   ├── 06_analisis_datos_de_panel/
│   ├── 07_infraestructura_bigdata/
│   ├── 08_streaming_kafka/
│   └── 09_cloud_localstack/
│
├── entregas/                   # Zona de entregas del alumno
├── trabajo_final/              # Proyecto integrador
└── docs/                       # Sitio web (MkDocs)

Galería de Dashboards

Dashboard Tecnologías
ARIMA PRO Series temporales estilo Bloomberg
PCA + K-Means Clustering y reducción dimensional
Transfer Learning Flores CNN + Computer Vision
Panel Data QoG Spark + PostgreSQL + ML
Sismos Global Kafka + Tiempo Real
ISS Tracker LocalStack + AWS

Instructor

Juan Marcelo Gutierrez Miranda@TodoEconometria

10+ años en análisis de datos y Big Data. Formador de profesionales en toda Latinoamérica y España.

Contacto:


Referencias Académicas

  1. Dean, J., & Ghemawat, S. (2008). MapReduce: Simplified data processing on large clusters. Communications of the ACM.
  2. Zaharia, M., et al. (2016). Apache Spark: A unified engine for big data processing. Communications of the ACM.
  3. McKinney, W. (2022). Python for Data Analysis. O'Reilly Media.
  4. Kleppmann, M. (2017). Designing Data-Intensive Applications. O'Reilly Media.


English

This course is available in English! Visit the English version of the website.

A complete, free, open-source Big Data course covering 230 hours of hands-on content across 9 modules:

  • Databases: SQLite, PostgreSQL, Oracle, DynamoDB
  • ETL & Processing: Pandas, Dask, Apache Spark
  • Streaming: Apache Kafka (KRaft mode), Spark Structured Streaming
  • Cloud: LocalStack (free AWS simulation), Terraform, Lambda
  • ML & AI: PCA, K-Means, TensorFlow, ARIMA/SARIMA, Transfer Learning
  • NLP: NLTK, TF-IDF, Sentiment Analysis, Jaccard Similarity
  • Econometrics: Panel Data, Fixed/Random Effects, Hausman Test
  • Infrastructure: Docker, Docker Compose, Spark Clusters

Live demos: Global Earthquake Observatory | ISS Tracker


© 2026 Juan Marcelo Gutierrez Miranda — Open Educational Material (MIT License)

Hash ID: 4e8d9b1a5f6e7c3d2b1a0f9e8d7c6b5a4f3e2d1c0b9a8f7e6d5c4b3a2f1e0d9c