| Observatorio Sísmico Global | ISS Tracker |
|---|---|
| Sismos en tiempo real desde USGS API | Rastrea la Estación Espacial Internacional |
| Ver Demo | Ver Demo |
Dashboards con datos reales de APIs públicas, actualizados automáticamente
| 230 Horas | 9 Módulos | 25+ Ejercicios | 12+ Dashboards | 30+ Tecnologías |
|---|---|---|---|---|
| de contenido | completos | prácticos | interactivos | profesionales |
| Tecnología | Nivel | Qué Aprenderás |
|---|---|---|
| SQLite | Básico | Queries SQL, índices, optimización |
| PostgreSQL | Intermedio | Joins complejos, Window Functions, CTEs |
| Oracle | Avanzado | PL/SQL, procedimientos almacenados |
| DynamoDB | Avanzado | NoSQL, key-value, serverless |
| Tecnología | Cuándo Usarla | Escala |
|---|---|---|
| Pandas | Análisis exploratorio | < 5 GB |
| Dask | Datasets grandes, 1 máquina | 5-100 GB |
| Apache Spark | Clusters, producción | > 100 GB |
| Spark Streaming | Datos en tiempo real | Ilimitado |
| Tecnología | Propósito |
|---|---|
| Apache Kafka | Streaming distribuido (KRaft mode) |
| Spark Structured Streaming | Procesamiento de streams |
| LocalStack | Simulación AWS local (gratis) |
| Terraform | Infraestructura como Código |
| AWS S3/Lambda | Almacenamiento y funciones serverless |
| Tecnología | Aplicación |
|---|---|
| Scikit-learn | ML clásico, clustering, clasificación |
| TensorFlow | Deep Learning, redes neuronales |
| MobileNetV2 | Transfer Learning, Computer Vision |
| ARIMA/SARIMA | Series temporales, forecasting |
| Tecnología | Uso |
|---|---|
| NLTK | Procesamiento de lenguaje natural |
| TF-IDF | Vectorización de texto |
| Plotly | Dashboards interactivos |
| Leaflet.js | Mapas interactivos |
| Tecnología | Aplicación |
|---|---|
| linearmodels | Datos de panel |
| Panel OLS | Efectos fijos y aleatorios |
| Hausman Test | Selección de modelo |
SQLite, PostgreSQL, Oracle, migraciones
Desde tu primera query SELECT hasta procedimientos almacenados en Oracle.
Pipeline ETL profesional, QoG Dataset (1289 variables, 194+ países)
Pipelines profesionales que procesan millones de registros.
Dask, Parquet, LocalCluster
Procesamiento paralelo de datasets grandes en una sola máquina.
PCA, K-Means, Transfer Learning, ARIMA/SARIMA
Desde clustering hasta Computer Vision con TensorFlow y series temporales.
NLTK, TF-IDF, Jaccard, Análisis de Sentimiento
Tokenización, limpieza, similitud de documentos y análisis de sentimiento.
Efectos Fijos, Efectos Aleatorios, Hausman Test
Análisis longitudinal con datos país x año.
Docker, Docker Compose, Apache Spark Cluster
Contenedores, orquestación y clusters Spark en Docker.
Apache Kafka (KRaft), Spark Structured Streaming
Streaming en tiempo real con datos de sismos desde USGS API.
LocalStack, Terraform, AWS S3/Lambda/DynamoDB
Simulación de AWS sin costos e Infraestructura como Código.
Docker + Spark + PostgreSQL + Análisis Completo
Proyecto integrador de principio a fin.
# 1. Clona tu fork
git clone https://github.com/TU_USUARIO/ejercicios-bigdata.git
cd ejercicios-bigdata
# 2. Crea entorno virtual
python -m venv .venv
.venv\Scripts\activate # Windows
source .venv/bin/activate # Linux/Mac
# 3. Instala dependencias
pip install -r requirements.txtSiguiente paso: Ver documentación completa
ejercicios-bigdata/
├── ejercicios/ # Código por módulo
│ ├── 01_bases_de_datos/
│ ├── 02_limpieza_datos/
│ ├── 03_procesamiento_distribuido/
│ ├── 04_machine_learning/
│ ├── 05_nlp_text_mining/
│ ├── 06_analisis_datos_de_panel/
│ ├── 07_infraestructura_bigdata/
│ ├── 08_streaming_kafka/
│ └── 09_cloud_localstack/
│
├── entregas/ # Zona de entregas del alumno
├── trabajo_final/ # Proyecto integrador
└── docs/ # Sitio web (MkDocs)
| Dashboard | Tecnologías |
|---|---|
| ARIMA PRO | Series temporales estilo Bloomberg |
| PCA + K-Means | Clustering y reducción dimensional |
| Transfer Learning Flores | CNN + Computer Vision |
| Panel Data QoG | Spark + PostgreSQL + ML |
| Sismos Global | Kafka + Tiempo Real |
| ISS Tracker | LocalStack + AWS |
Juan Marcelo Gutierrez Miranda — @TodoEconometria
10+ años en análisis de datos y Big Data. Formador de profesionales en toda Latinoamérica y España.
Contacto:
- Email: cursos@todoeconometria.com
- LinkedIn: Juan Gutierrez
- Web: todoeconometria.com
- Dean, J., & Ghemawat, S. (2008). MapReduce: Simplified data processing on large clusters. Communications of the ACM.
- Zaharia, M., et al. (2016). Apache Spark: A unified engine for big data processing. Communications of the ACM.
- McKinney, W. (2022). Python for Data Analysis. O'Reilly Media.
- Kleppmann, M. (2017). Designing Data-Intensive Applications. O'Reilly Media.
This course is available in English! Visit the English version of the website.
A complete, free, open-source Big Data course covering 230 hours of hands-on content across 9 modules:
- Databases: SQLite, PostgreSQL, Oracle, DynamoDB
- ETL & Processing: Pandas, Dask, Apache Spark
- Streaming: Apache Kafka (KRaft mode), Spark Structured Streaming
- Cloud: LocalStack (free AWS simulation), Terraform, Lambda
- ML & AI: PCA, K-Means, TensorFlow, ARIMA/SARIMA, Transfer Learning
- NLP: NLTK, TF-IDF, Sentiment Analysis, Jaccard Similarity
- Econometrics: Panel Data, Fixed/Random Effects, Hausman Test
- Infrastructure: Docker, Docker Compose, Spark Clusters
Live demos: Global Earthquake Observatory | ISS Tracker
© 2026 Juan Marcelo Gutierrez Miranda — Open Educational Material (MIT License)
Hash ID: 4e8d9b1a5f6e7c3d2b1a0f9e8d7c6b5a4f3e2d1c0b9a8f7e6d5c4b3a2f1e0d9c
