Skip to content

Commit 5cb6b8d

Browse files
committed
v2.3.5
1 parent 53d3be2 commit 5cb6b8d

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

65 files changed

+3079
-3125
lines changed

BigData-es001.ipynb

Lines changed: 26 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -46,7 +46,7 @@
4646
}
4747
},
4848
"source": [
49-
"- En el pasado solo las grandes organizaciones podían aprovecharse de Big Data. \n",
49+
"- En el pasado solo las grandes organizaciones podían aprovecharse de Big Data: \n",
5050
" - Walmart, Google, agentes financieros especializados. \n",
5151
"- Actualmente con Hadoop, hardware de bajo coste (*commodity*) con el kernel de Linux y el *cloud computing*, casi cualquier organización se lo puede permitir."
5252
]
@@ -403,7 +403,7 @@
403403
"id": "8cbaa9e6-ecfd-486f-b953-7e372ceade2b",
404404
"metadata": {},
405405
"source": [
406-
"- En el informe de 2024 el autor mueve el objetivo del *landscape* Big Data hacia la IA resaltando como tendencia la interacción de los datos no estructurados, utilizados en los modelos LLM, para entrenar los datos internos de las organizaciones como.\n",
406+
"- En el informe de 2024 el autor mueve el objetivo del *landscape* Big Data hacia la IA resaltando como tendencia la interacción de los datos no estructurados, utilizados en los modelos LLM, para entrenar los datos internos de las organizaciones.\n",
407407
"- En este sentido comenta el rápido crecimiento de las empresas OpenAI, Anthropic, Palantir, Midjourney y Perplexity AI, entre otras; y el aumento de la valoración de las 7 magníficas (Nvidia, Meta, Amazon, Microsoft, Alphabet, Apple and Tesla) en la bolsa de Nueva York (2023).\n",
408408
" - Fuente: <https://mattturck.com/mad2024/#more-1805>."
409409
]
@@ -421,7 +421,7 @@
421421
"id": "9d010219-3e92-4f98-bb6a-dfb1943b025c",
422422
"metadata": {},
423423
"source": [
424-
"- Por último, la lista de *Inside Big Data* IMPACT 50 LIST for Q1 2024 <https://insidebigdata.com/2024/01/18/the-insidebigdata-impact-50-list-for-q1-2024/> muestra, listando a las empresas más importantes, cómo el mercado ha evolucionado hacia la IA. Ellas son: OpenAI, Microsoft AI, NVIDIA, Hugging Face (Pre-trained ML models), Google AI y DeepMind, Amazon Web Services, Snowflake, Databricks, Intel AI, e IBM, en este orden. "
424+
"- Por último, la lista de *Inside Big Data* IMPACT 50 LIST for Q1 2024 <https://insidebigdata.com/2024/01/18/the-insidebigdata-impact-50-list-for-q1-2024/> muestra, listando a las empresas más importantes, cómo el mercado ha evolucionado hacia la IA. Ellas son: OpenAI, Microsoft AI, NVIDIA, Hugging Face (*Pre-trained ML models*), Google AI y DeepMind, Amazon Web Services, Snowflake, Databricks, Intel AI, e IBM, en este orden. "
425425
]
426426
},
427427
{
@@ -447,9 +447,15 @@
447447
},
448448
"source": [
449449
"- El gobierno de datos es una serie de principios, estándares y prácticas que se aplican de punta a punta en el ciclo de vida de los datos (recolección, almacenamiento, uso, protección, archivo y eliminación) para asegurar que los mismos sean confiables y consistentes. \n",
450-
"- Para ello establece estructuras organizacionales, confirma responsables de datos, Hace cumplir reglas y políticas, documenta procesos y registra métricas y términos de negocio comunes. \n",
451-
" \t\n",
452-
"\tFuente: <https://www.informatica.com/blogs/data-governance-vs-data-management-whats-the-difference.html>. "
450+
"- Para ello establece estructuras organizacionales, confirma responsables de datos, Hace cumplir reglas y políticas, documenta procesos y registra métricas y términos de negocio comunes. "
451+
]
452+
},
453+
{
454+
"cell_type": "markdown",
455+
"id": "896ccc35-c3cc-4d1c-90db-c014c19394ce",
456+
"metadata": {},
457+
"source": [
458+
"- Fuente: [Informatica.com](https://www.informatica.com/blogs/data-governance-vs-data-management-whats-the-difference.html). "
453459
]
454460
},
455461
{
@@ -1425,7 +1431,7 @@
14251431
}
14261432
},
14271433
"source": [
1428-
"- Mineria de datos (*Data mining*): Se utiliza para filtrar conjuntos de datos en busca de patrones y relaciones."
1434+
"- Minería de datos (*Data mining*): Se utiliza para filtrar conjuntos de datos en busca de patrones y relaciones."
14291435
]
14301436
},
14311437
{
@@ -1441,7 +1447,7 @@
14411447
" - Asociación.\n",
14421448
" - Análisis exploratorio.\n",
14431449
" - Segmentación.\n",
1444-
" - Clustering (no supervisado): agrupar los datos en categorías basadas en alguna medida de similitud o distancia.\n",
1450+
" - *Clustering* (no supervisado): agrupar los datos en categorías basadas en alguna medida de similitud o distancia.\n",
14451451
" - Reducción de la dimensión: proceso de reducción del número de variables aleatorias que se tratan."
14461452
]
14471453
},
@@ -1612,7 +1618,18 @@
16121618
}
16131619
},
16141620
"source": [
1615-
"## Herramientas para Big Data"
1621+
"## ASF: Herramientas para Big Data"
1622+
]
1623+
},
1624+
{
1625+
"cell_type": "markdown",
1626+
"id": "de334312-f5f6-4c70-ae0c-ce6c69ae1e08",
1627+
"metadata": {},
1628+
"source": [
1629+
"- La ASF (*Apache Software Foundation*) <https://apache.org/> desarrolla, administra e incuba cientos de proyectos de código de fuente abierta (*open source*) de nivel empresarial utilizados mundialmente.\n",
1630+
"- Actualmente administra más de 70 proyectos relacionados con Big Data <https://projects.apache.org/projects.html?category#big-data>. \n",
1631+
"- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase almacenamiento NoSQL escalable de datos.\n",
1632+
"- El blog de la ASF se encuentra en <https://news.apache.org/>."
16161633
]
16171634
},
16181635
{

0 commit comments

Comments
 (0)