Skip to content

Commit 41bb4c6

Browse files
committed
new build v2.3.5
1 parent 45b8712 commit 41bb4c6

35 files changed

+436
-425
lines changed

BigData-es001.ipynb

Lines changed: 11 additions & 62 deletions
Original file line numberDiff line numberDiff line change
@@ -880,65 +880,6 @@
880880
"- Para mayor información sobre los tipos de datos existe la norma ISO/IEC 11404:2007 (*International Organization for Standardization / International Electrotechnical Commission*) *General Purpose Datatypes.*"
881881
]
882882
},
883-
{
884-
"cell_type": "markdown",
885-
"id": "e8b75594",
886-
"metadata": {
887-
"slideshow": {
888-
"slide_type": "slide"
889-
}
890-
},
891-
"source": [
892-
"## Formatos de archivos para Big Data"
893-
]
894-
},
895-
{
896-
"cell_type": "markdown",
897-
"id": "14b73559",
898-
"metadata": {
899-
"slideshow": {
900-
"slide_type": "slide"
901-
}
902-
},
903-
"source": [
904-
"- Beneficios de elegir un formato apropiado de archivos:\n",
905-
" - Tiempos de lectura y escritura más veloces.\n",
906-
" - Se pueden dividir en múltiples discos.\n",
907-
" - Compatibilidad con la evolución del esquema.\n",
908-
" - Soporte de compresión."
909-
]
910-
},
911-
{
912-
"cell_type": "markdown",
913-
"id": "22cd62e5",
914-
"metadata": {
915-
"slideshow": {
916-
"slide_type": "slide"
917-
}
918-
},
919-
"source": [
920-
"- Formatos de archivos optimizados para Apache Hadoop:\n",
921-
" - Apache Optimized Row Columnar (ORC) <https://orc.apache.org/>\n",
922-
" - Apache Parquet (almacenamiento en columnas) <https://parquet.apache.org/documentation/latest/>\n",
923-
" - Apache Avro (almacenamiento en fila) <https://avro.apache.org/>\n",
924-
" - Avro es popular en sistemas de streaming con Kafka y Schema Registry gracias a su rendimiento. "
925-
]
926-
},
927-
{
928-
"cell_type": "markdown",
929-
"id": "79c15def",
930-
"metadata": {
931-
"slideshow": {
932-
"slide_type": "slide"
933-
}
934-
},
935-
"source": [
936-
"- Otros formatos de archivos:\n",
937-
" - JSON <https://www.json.org/json-en.html>.\n",
938-
" - CSV / TSV.\n",
939-
" - XML."
940-
]
941-
},
942883
{
943884
"cell_type": "markdown",
944885
"id": "ded0f15c",
@@ -988,7 +929,7 @@
988929
"source": [
989930
"- Hoy se cuenta con la escalabilidad y elasticidad de *cloud data warehouses* y *data lakes*:\n",
990931
" - Snowflake (*cloud data warehouse*).\n",
991-
" - Databricks (*data lakes*).\n",
932+
" - Databricks (*data lake*).\n",
992933
" - Amazon Redshift / EMR.\n",
993934
" - Google BigQuery / Dataproc.\n",
994935
" - Azure SQL Data Warehouse (SQL DW) / HD Insights."
@@ -1003,7 +944,7 @@
1003944
}
1004945
},
1005946
"source": [
1006-
"## Data Lakes - Data Warehouses"
947+
"## Data Warehouses / Data Lakes / Lakehouses"
1007948
]
1008949
},
1009950
{
@@ -1027,6 +968,14 @@
1027968
"- Los Almacenes de datos (*Data warehouses*) por otro lado, contienen datos estructurados y capacidad de realizar transacciones y gobernanza. (BI)."
1028969
]
1029970
},
971+
{
972+
"cell_type": "markdown",
973+
"id": "f9cede4b-ab2b-4fda-b04a-ed456cc90047",
974+
"metadata": {},
975+
"source": [
976+
"- Delta Lake <https://delta.io/> por otro lado, es un framework de almacenamiento de código abierto que permite crear una arquitectura Lakehouse sobre un lago de datos para proporcionar procesamiento de datos en streaming y por lotes."
977+
]
978+
},
1030979
{
1031980
"cell_type": "markdown",
1032981
"id": "324cf4dc",
@@ -1628,7 +1577,7 @@
16281577
"source": [
16291578
"- La ASF (*Apache Software Foundation*) <https://apache.org/> desarrolla, administra e incuba cientos de proyectos de código de fuente abierta (*open source*) de nivel empresarial utilizados mundialmente.\n",
16301579
"- Actualmente administra más de 70 proyectos relacionados con Big Data <https://projects.apache.org/projects.html?category#big-data>. \n",
1631-
"- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase almacenamiento NoSQL escalable de datos.\n",
1580+
"- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase para el almacenamiento NoSQL escalable de datos.\n",
16321581
"- El blog de la ASF se encuentra en <https://news.apache.org/>."
16331582
]
16341583
},

BigData-es002.ipynb

Lines changed: 3 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -1596,7 +1596,7 @@
15961596
"id": "ea5261af-f191-4faf-aef0-a6de676b7a15",
15971597
"metadata": {},
15981598
"source": [
1599-
"## Lagos de datos"
1599+
"## Data warehouses / Data lakes / Lakehouses"
16001600
]
16011601
},
16021602
{
@@ -1664,7 +1664,8 @@
16641664
"id": "fe830d33-a29a-4d71-bc1b-572aa62f5dee",
16651665
"metadata": {},
16661666
"source": [
1667-
"- Delta Lake es un marco de almacenamiento de código abierto que permite crear una arquitectura *Lakehouse* independiente del formato con motores informáticos que incluyen Spark, PrestoDB, Flink, Trino, Hive, Snowflake, Google BigQuery, Athena, Redshift, Databricks, y Azure Fabric.\n",
1667+
"- Delta Lake es un *framework* de almacenamiento de código abierto que permite crear una arquitectura *Lakehouse* independiente del formato sobre un lago de datos con motores informáticos que incluyen Spark, PrestoDB, Flink, Trino, Hive, Snowflake, Google BigQuery, Athena, Redshift, Databricks, y Azure Fabric.\n",
1668+
"- Proporciona transacciones ACID, manejo escalable de metadatos y unifica el procesamiento de datos por lotes y streaming sobre lagos de datos existentes, como S3, ADLS, GCS y HDFS.\n",
16681669
"- Cuenta con una API para los lenguajes de programación Scala, Java, Rust y Python. \n",
16691670
"- Puede además leer tablas Delta con los clientes Iceberg y Hudi utilizando el formato *Delta Universal*, también llamado *UniForm*."
16701671
]

BigData-es003.ipynb

Lines changed: 14 additions & 19 deletions
Original file line numberDiff line numberDiff line change
@@ -50,10 +50,11 @@
5050
},
5151
"source": [
5252
"- Formatos de archivos binarios optimizados para Apache Hadoop:\n",
53-
" - Apache Optimized Row Columnar (ORC) <https://orc.apache.org/>\n",
54-
" - Apache Parquet (almacenamiento en columnas) <https://parquet.apache.org/documentation/latest/>\n",
55-
" - Apache Avro (almacenamiento en fila) <https://avro.apache.org/>\n",
56-
" - Avro es popular en sistemas de streaming con Kafka y Schema Registry gracias a su rendimiento. "
53+
" - Apache ORC - *Optimized Row Columnar* (almacenamiento en columnas) <https://orc.apache.org/>.\n",
54+
" - Apache Parquet (almacenamiento en columnas) <https://parquet.apache.org/documentation/latest/>.\n",
55+
" - Apache Avro (almacenamiento en fila) <https://avro.apache.org/>.\n",
56+
" - Avro es popular en sistemas de streaming con Kafka y Schema Registry gracias a su rendimiento.\n",
57+
" - Apache Arrow (almacenamiento *in-memory columnar*) <https://arrow.apache.org/overview/>. "
5758
]
5859
},
5960
{
@@ -71,6 +72,14 @@
7172
" - XML."
7273
]
7374
},
75+
{
76+
"cell_type": "markdown",
77+
"id": "e119c13b-48f2-4d7b-93a7-309b54768428",
78+
"metadata": {},
79+
"source": [
80+
"- Comparativa entre distintos formatos: <https://www.upsolver.com/blog/the-file-format-fundamentals-of-big-data>."
81+
]
82+
},
7483
{
7584
"cell_type": "markdown",
7685
"id": "1b477228",
@@ -152,20 +161,6 @@
152161
"## MongoDB"
153162
]
154163
},
155-
{
156-
"cell_type": "markdown",
157-
"id": "fe888dd6",
158-
"metadata": {
159-
"slideshow": {
160-
"slide_type": "slide"
161-
}
162-
},
163-
"source": [
164-
"- Las bases de datos NoSQL, (no solo SQL) o no relacionales, se utilizan mayoritariamente para la recopilación y análisis de Big Data.\n",
165-
"- Permiten la organización dinámica de datos no estructurados.\n",
166-
"- Las bases de datos relacionales, por otro lado, tienen un diseño estructurado y tabular."
167-
]
168-
},
169164
{
170165
"cell_type": "markdown",
171166
"id": "3f4340b2",
@@ -445,7 +440,7 @@
445440
"metadata": {},
446441
"source": [
447442
"- Couchbase es una base de datos en la nube NoSQL distribuida.\n",
448-
"- Ofrece versatilidad, rendimiento, escalabilidad y un valor financiero inigualables en implementaciones informáticas en la nube, en las instalaciones híbridas, en la nube distribuida y en edge computing.\n",
443+
"- Ofrece versatilidad, rendimiento, escalabilidad y un valor financiero inigualables en implementaciones informáticas en la nube, en las instalaciones híbridas, en la nube distribuida y en *edge computing*.\n",
449444
" - Fuente: <https://couchbase.com/>."
450445
]
451446
},

BigData-es004.ipynb

Lines changed: 18 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -435,7 +435,7 @@
435435
"source": [
436436
"- *Hive-Server 2 - HS2* para multi-client concurrency y autenticación. \n",
437437
"- Provee un repositorio central de metadatos mediante *Hive Metastore(HMS)* y soporta el almacenamiento en S3, adls, gs, etc. a través de HDFS.\n",
438-
"- *Hive ACID* provee soporte completo ACID para las tabls ORC e *insert only* para todos los otros formatos."
438+
"- *Hive ACID* provee soporte completo ACID para las tablas ORC e *insert only* para todos los otros formatos."
439439
]
440440
},
441441
{
@@ -1520,6 +1520,23 @@
15201520
"- Fuente <https://superset.apache.org/>."
15211521
]
15221522
},
1523+
{
1524+
"cell_type": "markdown",
1525+
"id": "160a1774-0506-4cb5-951a-c44c59b5256a",
1526+
"metadata": {},
1527+
"source": [
1528+
"### Tutorial Apache Superset"
1529+
]
1530+
},
1531+
{
1532+
"cell_type": "markdown",
1533+
"id": "bd76171b-ccb1-4aed-957a-4f1e156f7399",
1534+
"metadata": {},
1535+
"source": [
1536+
"- Clonar el repositorio <https://github.com/apache/superset> siguiendo las instrucciones de la página <https://superset.apache.org/docs/quickstart> para ejecutar un contenedor con Apache Superset.\n",
1537+
"- Crear un gráfico de barras con la suma de ventas por trimestre utilizando la tabla *cleaned_sales_data*."
1538+
]
1539+
},
15231540
{
15241541
"cell_type": "markdown",
15251542
"id": "bf445b3b",

0 commit comments

Comments
 (0)