fortinux
diff --git a/‎BigData-es001.ipynb‎
Lines changed: 11 additions & 62 deletions b/‎BigData-es001.ipynb‎
Lines changed: 11 additions & 62 deletions
diff --git a/‎BigData-es002.ipynb‎
Lines changed: 3 additions & 2 deletions b/‎BigData-es002.ipynb‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎BigData-es003.ipynb‎
Lines changed: 14 additions & 19 deletions b/‎BigData-es003.ipynb‎
Lines changed: 14 additions & 19 deletions
diff --git a/‎BigData-es004.ipynb‎
Lines changed: 18 additions & 1 deletion b/‎BigData-es004.ipynb‎
Lines changed: 18 additions & 1 deletion
@@ -880,65 +880,6 @@
     "- Para mayor información sobre los tipos de datos existe la norma ISO/IEC 11404:2007 (*International Organization for Standardization / International Electrotechnical Commission*) *General Purpose Datatypes.*"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "id": "e8b75594",
-   "metadata": {
-    "slideshow": {
-     "slide_type": "slide"
-    }
-   },
-   "source": [
-    "## Formatos de archivos para Big Data"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "14b73559",
-   "metadata": {
-    "slideshow": {
-     "slide_type": "slide"
-    }
-   },
-   "source": [
-    "- Beneficios de elegir un formato apropiado de archivos:\n",
-    "    - Tiempos de lectura y escritura más veloces.\n",
-    "    - Se pueden dividir en múltiples discos.\n",
-    "    - Compatibilidad con la evolución del esquema.\n",
-    "    - Soporte de compresión."
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "22cd62e5",
-   "metadata": {
-    "slideshow": {
-     "slide_type": "slide"
-    }
-   },
-   "source": [
-    "- Formatos de archivos optimizados para Apache Hadoop:\n",
-    "    - Apache Optimized Row Columnar (ORC) <https://orc.apache.org/>\n",
-    "    - Apache Parquet (almacenamiento en columnas) <https://parquet.apache.org/documentation/latest/>\n",
-    "    - Apache Avro (almacenamiento en fila) <https://avro.apache.org/>\n",
-    "    - Avro es popular en sistemas de streaming con Kafka y Schema Registry gracias a su rendimiento. "
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "79c15def",
-   "metadata": {
-    "slideshow": {
-     "slide_type": "slide"
-    }
-   },
-   "source": [
-    "- Otros formatos de archivos:\n",
-    "    - JSON <https://www.json.org/json-en.html>.\n",
-    "    - CSV / TSV.\n",
-    "    - XML."
-   ]
-  },
   {
    "cell_type": "markdown",
    "id": "ded0f15c",
@@ -988,7 +929,7 @@
    "source": [
     "- Hoy se cuenta con la escalabilidad y elasticidad de *cloud data warehouses* y *data lakes*:\n",
     "    - Snowflake (*cloud data warehouse*).\n",
-    "    - Databricks (*data lakes*).\n",
+    "    - Databricks (*data lake*).\n",
     "    - Amazon Redshift / EMR.\n",
     "    - Google BigQuery / Dataproc.\n",
     "    - Azure SQL Data Warehouse (SQL DW) / HD Insights."
@@ -1003,7 +944,7 @@
     }
    },
    "source": [
-    "## Data Lakes - Data Warehouses"
+    "## Data Warehouses / Data Lakes / Lakehouses"
    ]
   },
   {
@@ -1027,6 +968,14 @@
     "- Los Almacenes de datos (*Data warehouses*) por otro lado, contienen datos estructurados y capacidad de realizar transacciones y gobernanza. (BI)."
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "f9cede4b-ab2b-4fda-b04a-ed456cc90047",
+   "metadata": {},
+   "source": [
+    "- Delta Lake <https://delta.io/> por otro lado, es un framework de almacenamiento de código abierto que permite crear una arquitectura Lakehouse sobre un lago de datos para proporcionar procesamiento de datos en streaming y por lotes."
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "324cf4dc",
@@ -1628,7 +1577,7 @@
    "source": [
     "- La ASF (*Apache Software Foundation*) <https://apache.org/> desarrolla, administra e incuba cientos de proyectos de código de fuente abierta (*open source*) de nivel empresarial utilizados mundialmente.\n",
     "- Actualmente administra más de 70 proyectos relacionados con Big Data <https://projects.apache.org/projects.html?category#big-data>. \n",
-    "- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase almacenamiento NoSQL escalable de datos.\n",
+    "- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase para el almacenamiento NoSQL escalable de datos.\n",
     "- El blog de la ASF se encuentra en <https://news.apache.org/>."
    ]
   },
 
@@ -1596,7 +1596,7 @@
    "id": "ea5261af-f191-4faf-aef0-a6de676b7a15",
    "metadata": {},
    "source": [
-    "## Lagos de datos"
+    "## Data warehouses / Data lakes / Lakehouses"
    ]
   },
   {
@@ -1664,7 +1664,8 @@
    "id": "fe830d33-a29a-4d71-bc1b-572aa62f5dee",
    "metadata": {},
    "source": [
-    "- Delta Lake es un marco de almacenamiento de código abierto que permite crear una arquitectura *Lakehouse* independiente del formato con motores informáticos que incluyen Spark, PrestoDB, Flink, Trino, Hive, Snowflake, Google BigQuery, Athena, Redshift, Databricks, y Azure Fabric.\n",
+    "- Delta Lake es un *framework* de almacenamiento de código abierto que permite crear una arquitectura *Lakehouse* independiente del formato sobre un lago de datos con motores informáticos que incluyen Spark, PrestoDB, Flink, Trino, Hive, Snowflake, Google BigQuery, Athena, Redshift, Databricks, y Azure Fabric.\n",
+    "- Proporciona transacciones ACID, manejo escalable de metadatos y unifica el procesamiento de datos por lotes y streaming sobre lagos de datos existentes, como S3, ADLS, GCS y HDFS.\n",
     "- Cuenta con una API para los lenguajes de programación Scala, Java, Rust y Python. \n",
     "- Puede además leer tablas Delta con los clientes Iceberg y Hudi utilizando el formato *Delta Universal*, también llamado *UniForm*."
    ]
 
@@ -50,10 +50,11 @@
    },
    "source": [
     "- Formatos de archivos binarios optimizados para Apache Hadoop:\n",
-    "    - Apache Optimized Row Columnar (ORC) <https://orc.apache.org/>\n",
-    "    - Apache Parquet (almacenamiento en columnas) <https://parquet.apache.org/documentation/latest/>\n",
-    "    - Apache Avro (almacenamiento en fila) <https://avro.apache.org/>\n",
-    "    - Avro es popular en sistemas de streaming con Kafka y Schema Registry gracias a su rendimiento. "
+    "    - Apache ORC - *Optimized Row Columnar* (almacenamiento en columnas) <https://orc.apache.org/>.\n",
+    "    - Apache Parquet (almacenamiento en columnas) <https://parquet.apache.org/documentation/latest/>.\n",
+    "    - Apache Avro (almacenamiento en fila) <https://avro.apache.org/>.\n",
+    "    - Avro es popular en sistemas de streaming con Kafka y Schema Registry gracias a su rendimiento.\n",
+    "    - Apache Arrow (almacenamiento *in-memory columnar*) <https://arrow.apache.org/overview/>. "
    ]
   },
   {
@@ -71,6 +72,14 @@
     "    - XML."
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "e119c13b-48f2-4d7b-93a7-309b54768428",
+   "metadata": {},
+   "source": [
+    "- Comparativa entre distintos formatos: <https://www.upsolver.com/blog/the-file-format-fundamentals-of-big-data>."
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "1b477228",
@@ -152,20 +161,6 @@
     "## MongoDB"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "id": "fe888dd6",
-   "metadata": {
-    "slideshow": {
-     "slide_type": "slide"
-    }
-   },
-   "source": [
-    "- Las bases de datos NoSQL, (no solo SQL) o no relacionales, se utilizan mayoritariamente para la recopilación y análisis de Big Data.\n",
-    "- Permiten la organización dinámica de datos no estructurados.\n",
-    "- Las bases de datos relacionales, por otro lado, tienen un diseño estructurado y tabular."
-   ]
-  },
   {
    "cell_type": "markdown",
    "id": "3f4340b2",
@@ -445,7 +440,7 @@
    "metadata": {},
    "source": [
     "- Couchbase es una base de datos en la nube NoSQL distribuida.\n",
-    "- Ofrece versatilidad, rendimiento, escalabilidad y un valor financiero inigualables en implementaciones informáticas en la nube, en las instalaciones híbridas, en la nube distribuida y en edge computing.\n",
+    "- Ofrece versatilidad, rendimiento, escalabilidad y un valor financiero inigualables en implementaciones informáticas en la nube, en las instalaciones híbridas, en la nube distribuida y en *edge computing*.\n",
     "    - Fuente: <https://couchbase.com/>."
    ]
   },
 
@@ -435,7 +435,7 @@
    "source": [
     "- *Hive-Server 2 - HS2* para multi-client concurrency y autenticación. \n",
     "- Provee un repositorio central de metadatos mediante *Hive Metastore(HMS)* y soporta el almacenamiento en S3, adls, gs, etc. a través de HDFS.\n",
-    "- *Hive ACID* provee soporte completo ACID para las tabls ORC e *insert only* para todos los otros formatos."
+    "- *Hive ACID* provee soporte completo ACID para las tablas ORC e *insert only* para todos los otros formatos."
    ]
   },
   {
@@ -1520,6 +1520,23 @@
     "- Fuente <https://superset.apache.org/>."
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "160a1774-0506-4cb5-951a-c44c59b5256a",
+   "metadata": {},
+   "source": [
+    "### Tutorial Apache Superset"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "bd76171b-ccb1-4aed-957a-4f1e156f7399",
+   "metadata": {},
+   "source": [
+    "- Clonar el repositorio <https://github.com/apache/superset> siguiendo las instrucciones de la página <https://superset.apache.org/docs/quickstart> para ejecutar un contenedor con Apache Superset.\n",
+    "- Crear un gráfico de barras con la suma de ventas por trimestre utilizando la tabla *cleaned_sales_data*."
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "bf445b3b",
Original file line number	Diff line number	Diff line change
`@@ -1596,7 +1596,7 @@`
`1596`	`1596`	`"id": "ea5261af-f191-4faf-aef0-a6de676b7a15",`
`1597`	`1597`	`"metadata": {},`
`1598`	`1598`	`"source": [`
`1599`		`- "## Lagos de datos"`
	`1599`	`+ "## Data warehouses / Data lakes / Lakehouses"`
`1600`	`1600`	`]`
`1601`	`1601`	`},`
`1602`	`1602`	`{`
`@@ -1664,7 +1664,8 @@`
`1664`	`1664`	`"id": "fe830d33-a29a-4d71-bc1b-572aa62f5dee",`
`1665`	`1665`	`"metadata": {},`
`1666`	`1666`	`"source": [`
`1667`		`- "- Delta Lake es un marco de almacenamiento de código abierto que permite crear una arquitectura Lakehouse independiente del formato con motores informáticos que incluyen Spark, PrestoDB, Flink, Trino, Hive, Snowflake, Google BigQuery, Athena, Redshift, Databricks, y Azure Fabric.\n",`
	`1667`	`+ "- Delta Lake es un framework de almacenamiento de código abierto que permite crear una arquitectura Lakehouse independiente del formato sobre un lago de datos con motores informáticos que incluyen Spark, PrestoDB, Flink, Trino, Hive, Snowflake, Google BigQuery, Athena, Redshift, Databricks, y Azure Fabric.\n",`
	`1668`	`+ "- Proporciona transacciones ACID, manejo escalable de metadatos y unifica el procesamiento de datos por lotes y streaming sobre lagos de datos existentes, como S3, ADLS, GCS y HDFS.\n",`
`1668`	`1669`	`"- Cuenta con una API para los lenguajes de programación Scala, Java, Rust y Python. \n",`
`1669`	`1670`	`"- Puede además leer tablas Delta con los clientes Iceberg y Hudi utilizando el formato Delta Universal, también llamado UniForm."`
`1670`	`1671`	`]`