|
46 | 46 | } |
47 | 47 | }, |
48 | 48 | "source": [ |
49 | | - "- En el pasado solo las grandes organizaciones podían aprovecharse de Big Data. \n", |
| 49 | + "- En el pasado solo las grandes organizaciones podían aprovecharse de Big Data: \n", |
50 | 50 | " - Walmart, Google, agentes financieros especializados. \n", |
51 | 51 | "- Actualmente con Hadoop, hardware de bajo coste (*commodity*) con el kernel de Linux y el *cloud computing*, casi cualquier organización se lo puede permitir." |
52 | 52 | ] |
|
403 | 403 | "id": "8cbaa9e6-ecfd-486f-b953-7e372ceade2b", |
404 | 404 | "metadata": {}, |
405 | 405 | "source": [ |
406 | | - "- En el informe de 2024 el autor mueve el objetivo del *landscape* Big Data hacia la IA resaltando como tendencia la interacción de los datos no estructurados, utilizados en los modelos LLM, para entrenar los datos internos de las organizaciones como.\n", |
| 406 | + "- En el informe de 2024 el autor mueve el objetivo del *landscape* Big Data hacia la IA resaltando como tendencia la interacción de los datos no estructurados, utilizados en los modelos LLM, para entrenar los datos internos de las organizaciones.\n", |
407 | 407 | "- En este sentido comenta el rápido crecimiento de las empresas OpenAI, Anthropic, Palantir, Midjourney y Perplexity AI, entre otras; y el aumento de la valoración de las 7 magníficas (Nvidia, Meta, Amazon, Microsoft, Alphabet, Apple and Tesla) en la bolsa de Nueva York (2023).\n", |
408 | 408 | " - Fuente: <https://mattturck.com/mad2024/#more-1805>." |
409 | 409 | ] |
|
421 | 421 | "id": "9d010219-3e92-4f98-bb6a-dfb1943b025c", |
422 | 422 | "metadata": {}, |
423 | 423 | "source": [ |
424 | | - "- Por último, la lista de *Inside Big Data* IMPACT 50 LIST for Q1 2024 <https://insidebigdata.com/2024/01/18/the-insidebigdata-impact-50-list-for-q1-2024/> muestra, listando a las empresas más importantes, cómo el mercado ha evolucionado hacia la IA. Ellas son: OpenAI, Microsoft AI, NVIDIA, Hugging Face (Pre-trained ML models), Google AI y DeepMind, Amazon Web Services, Snowflake, Databricks, Intel AI, e IBM, en este orden. " |
| 424 | + "- Por último, la lista de *Inside Big Data* IMPACT 50 LIST for Q1 2024 <https://insidebigdata.com/2024/01/18/the-insidebigdata-impact-50-list-for-q1-2024/> muestra, listando a las empresas más importantes, cómo el mercado ha evolucionado hacia la IA. Ellas son: OpenAI, Microsoft AI, NVIDIA, Hugging Face (*Pre-trained ML models*), Google AI y DeepMind, Amazon Web Services, Snowflake, Databricks, Intel AI, e IBM, en este orden. " |
425 | 425 | ] |
426 | 426 | }, |
427 | 427 | { |
|
447 | 447 | }, |
448 | 448 | "source": [ |
449 | 449 | "- El gobierno de datos es una serie de principios, estándares y prácticas que se aplican de punta a punta en el ciclo de vida de los datos (recolección, almacenamiento, uso, protección, archivo y eliminación) para asegurar que los mismos sean confiables y consistentes. \n", |
450 | | - "- Para ello establece estructuras organizacionales, confirma responsables de datos, Hace cumplir reglas y políticas, documenta procesos y registra métricas y términos de negocio comunes. \n", |
451 | | - " \t\n", |
452 | | - "\tFuente: <https://www.informatica.com/blogs/data-governance-vs-data-management-whats-the-difference.html>. " |
| 450 | + "- Para ello establece estructuras organizacionales, confirma responsables de datos, Hace cumplir reglas y políticas, documenta procesos y registra métricas y términos de negocio comunes. " |
| 451 | + ] |
| 452 | + }, |
| 453 | + { |
| 454 | + "cell_type": "markdown", |
| 455 | + "id": "896ccc35-c3cc-4d1c-90db-c014c19394ce", |
| 456 | + "metadata": {}, |
| 457 | + "source": [ |
| 458 | + "- Fuente: [Informatica.com](https://www.informatica.com/blogs/data-governance-vs-data-management-whats-the-difference.html). " |
453 | 459 | ] |
454 | 460 | }, |
455 | 461 | { |
|
1425 | 1431 | } |
1426 | 1432 | }, |
1427 | 1433 | "source": [ |
1428 | | - "- Mineria de datos (*Data mining*): Se utiliza para filtrar conjuntos de datos en busca de patrones y relaciones." |
| 1434 | + "- Minería de datos (*Data mining*): Se utiliza para filtrar conjuntos de datos en busca de patrones y relaciones." |
1429 | 1435 | ] |
1430 | 1436 | }, |
1431 | 1437 | { |
|
1441 | 1447 | " - Asociación.\n", |
1442 | 1448 | " - Análisis exploratorio.\n", |
1443 | 1449 | " - Segmentación.\n", |
1444 | | - " - Clustering (no supervisado): agrupar los datos en categorías basadas en alguna medida de similitud o distancia.\n", |
| 1450 | + " - *Clustering* (no supervisado): agrupar los datos en categorías basadas en alguna medida de similitud o distancia.\n", |
1445 | 1451 | " - Reducción de la dimensión: proceso de reducción del número de variables aleatorias que se tratan." |
1446 | 1452 | ] |
1447 | 1453 | }, |
|
1612 | 1618 | } |
1613 | 1619 | }, |
1614 | 1620 | "source": [ |
1615 | | - "## Herramientas para Big Data" |
| 1621 | + "## ASF: Herramientas para Big Data" |
| 1622 | + ] |
| 1623 | + }, |
| 1624 | + { |
| 1625 | + "cell_type": "markdown", |
| 1626 | + "id": "de334312-f5f6-4c70-ae0c-ce6c69ae1e08", |
| 1627 | + "metadata": {}, |
| 1628 | + "source": [ |
| 1629 | + "- La ASF (*Apache Software Foundation*) <https://apache.org/> desarrolla, administra e incuba cientos de proyectos de código de fuente abierta (*open source*) de nivel empresarial utilizados mundialmente.\n", |
| 1630 | + "- Actualmente administra más de 70 proyectos relacionados con Big Data <https://projects.apache.org/projects.html?category#big-data>. \n", |
| 1631 | + "- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase almacenamiento NoSQL escalable de datos.\n", |
| 1632 | + "- El blog de la ASF se encuentra en <https://news.apache.org/>." |
1616 | 1633 | ] |
1617 | 1634 | }, |
1618 | 1635 | { |
|
0 commit comments