Skip to content

Commit 53d3be2

Browse files
committed
v2.3.4
1 parent e225013 commit 53d3be2

File tree

11 files changed

+2021
-2275
lines changed

11 files changed

+2021
-2275
lines changed

BigData-es001.ipynb

Lines changed: 161 additions & 97 deletions
Large diffs are not rendered by default.

BigData-es002.ipynb

Lines changed: 174 additions & 713 deletions
Large diffs are not rendered by default.

BigData-es003.ipynb

Lines changed: 681 additions & 303 deletions
Large diffs are not rendered by default.

BigData-es004.ipynb

Lines changed: 802 additions & 448 deletions
Large diffs are not rendered by default.

BigData-es005.ipynb

Lines changed: 45 additions & 62 deletions
Original file line numberDiff line numberDiff line change
@@ -181,46 +181,46 @@
181181
},
182182
"source": [
183183
"- Tecnología de gestión de clústeres en Hadoop de segunda generación.\n",
184-
"- La idea de YARN es dividir las funcionalidades de gestión de recursos y programación/supervisión de trabajos en demonios separados: un ResourceManager (RM) global y un ApplicationMaster (AM) por aplicación.\n",
184+
"- La idea de YARN es dividir las funcionalidades de gestión de recursos y programación/supervisión de trabajos en demonios separados: un *ResourceManager (RM)* global y un *ApplicationMaster (AM)* por aplicación.\n",
185185
"- Una aplicación es un solo trabajo o un DAG de trabajos.\n",
186-
"- El ResourceManager y el NodeManager forman el framework de cálculo de datos. "
186+
"- El *ResourceManager* y el *NodeManager* forman el framework de cálculo de datos. "
187187
]
188188
},
189189
{
190190
"cell_type": "markdown",
191-
"id": "81955e2c",
191+
"id": "e3337ce9",
192192
"metadata": {
193193
"slideshow": {
194-
"slide_type": "fragment"
194+
"slide_type": "slide"
195195
}
196196
},
197197
"source": [
198-
"- Fuente: <https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html>"
198+
"- El *ResourceManager* arbitra los recursos entre todas las aplicaciones del sistema.\n",
199+
"- El *NodeManager* es el agente del framework por máquina que es responsable de los contenedores, monitorea el uso de sus recursos (CPU, memoria, disco, red) e informa al *ResourceManager / Scheduler*. "
199200
]
200201
},
201202
{
202203
"cell_type": "markdown",
203-
"id": "e3337ce9",
204+
"id": "e70c52c4",
204205
"metadata": {
205206
"slideshow": {
206207
"slide_type": "slide"
207208
}
208209
},
209210
"source": [
210-
"- El ResourceManager arbitra los recursos entre todas las aplicaciones del sistema.\n",
211-
"- El NodeManager es el agente del framework por máquina que es responsable de los contenedores, monitorea el uso de sus recursos (cpu, memoria, disco, red) e informa al ResourceManager / Scheduler. "
211+
"- La aplicación *ApplicationMaster* es en efecto una biblioteca específica del framework y tiene la tarea de negociar recursos del *ResourceManager* y trabajar con los *NodeManagers* para ejecutar y monitorear las tareas."
212212
]
213213
},
214214
{
215215
"cell_type": "markdown",
216-
"id": "e70c52c4",
216+
"id": "81955e2c",
217217
"metadata": {
218218
"slideshow": {
219-
"slide_type": "slide"
219+
"slide_type": "fragment"
220220
}
221221
},
222222
"source": [
223-
"- La aplicación ApplicationMaster es en efecto una biblioteca específica del framework y tiene la tarea de negociar recursos del ResourceManager y trabajar con los NodeManager(s) para ejecutar y monitorear las tareas."
223+
"- Fuente: <https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html>"
224224
]
225225
},
226226
{
@@ -264,7 +264,7 @@
264264
}
265265
},
266266
"source": [
267-
"- Consta de un único ResourceManager maestro, un NodeManager trabajador por nodo de clúster y MRAppMaster por aplicación.\n",
267+
"- Consta de un único *ResourceManager* maestro, un *NodeManager* trabajador por nodo de clúster y *MRAppMaster* por aplicación.\n",
268268
"- Las aplicaciones especifican las ubicaciones de entrada/salida y el mapa de suministro y reducen las funciones a través de implementaciones de interfaces apropiadas y/o clases abstractas.\n",
269269
"- Estos y otros parámetros del trabajo comprenden la configuración del trabajo."
270270
]
@@ -278,7 +278,7 @@
278278
}
279279
},
280280
"source": [
281-
"- El cliente de trabajo de Hadoop luego envía el trabajo (jar/ejecutable, etc.) y la configuración al ResourceManager, que entonces asume la responsabilidad de distribuir el software/configuración a los trabajadores, programar tareas y monitorearlas, proporcionando estado e información de diagnóstico al trabajo-cliente."
281+
"- El cliente de trabajo de Hadoop luego envía el trabajo (jar/ejecutable, etc.) y la configuración al *ResourceManager*, que entonces asume la responsabilidad de distribuir el software/configuración a los trabajadores, programar tareas y monitorearlas, proporcionando estado e información de diagnóstico al trabajo-cliente."
282282
]
283283
},
284284
{
@@ -290,9 +290,9 @@
290290
}
291291
},
292292
"source": [
293-
"- Las aplicaciones de MapReduce no necesitan estar escritas en Java.\n",
294-
"- Hadoop Streaming es una utilidad que permite a los usuarios crear y ejecutar trabajos con cualquier ejecutable (por ejemplo, utilidades de shell) como mapeador y/o reductor.\n",
295-
"- Hadoop Pipes es una API C++ compatible con SWIG para implementar aplicaciones MapReduce (no basadas en JNI™)."
293+
"- Las aplicaciones de *MapReduce* no necesitan estar escritas en Java.\n",
294+
"- Hadoop *Streaming* es una utilidad que permite a los usuarios crear y ejecutar trabajos con cualquier ejecutable (por ejemplo, utilidades de shell) como mapeador y/o reductor.\n",
295+
"- Hadoop *Pipes* es una API C++ compatible con SWIG para implementar aplicaciones *MapReduce* (no basadas en JNI™)."
296296
]
297297
},
298298
{
@@ -305,7 +305,7 @@
305305
},
306306
"source": [
307307
"- Entradas y salidas:\n",
308-
"- El framework MapReduce opera exclusivamente en pares <clave, valor>, es decir, el framework ve la entrada del trabajo como un conjunto de pares <clave, valor> y produce un conjunto de pares <clave, valor> como la salida de el trabajo, posiblemente de diferentes tipos."
308+
"- El framework *MapReduce* opera exclusivamente en pares <clave, valor>, es decir, el framework ve la entrada del trabajo como un conjunto de pares <clave, valor> y produce un conjunto de pares <clave, valor> como la salida de el trabajo, posiblemente de diferentes tipos."
309309
]
310310
},
311311
{
@@ -567,6 +567,18 @@
567567
" - Extraído de: <https://spark.apache.org/>."
568568
]
569569
},
570+
{
571+
"cell_type": "markdown",
572+
"id": "ffd99109-653e-4ca9-8a92-f8f1b4241df4",
573+
"metadata": {},
574+
"source": [
575+
"- Sus funcionalidades básicas son:\n",
576+
" - Procesamiento de datos en *batch/streaming* utilizando Python, SQL, Scala, Java o R.\n",
577+
" - Analíticas mediante SQL ejecutando consultas para *dashboards* e informes más rápidas que la mayoría de los *data warehouses*.\n",
578+
" - Ciencia de datos en escala realizando *Exploratory Data Analysis - EDA* con petabytes de datos.\n",
579+
" - *Machine Learning* para entrenar algoritmos en un ordenador portátil usando el mismo código que luego se utilizará en clústeres de miles de máquinas."
580+
]
581+
},
570582
{
571583
"cell_type": "markdown",
572584
"id": "41e63a7c",
@@ -576,7 +588,11 @@
576588
}
577589
},
578590
"source": [
579-
"- También es compatible con un amplio conjunto de herramientas de alto nivel, que incluyen Spark SQL para SQL y procesamiento de datos estructurados, MLlib para aprendizaje automático, GraphX para procesamiento de gráficos y transmisión estructurada para procesamiento incremental y de streaming."
591+
"- También es compatible con un amplio conjunto de herramientas de alto nivel, que incluyen:\n",
592+
" - Spark SQL para SQL y procesamiento de datos estructurados, \n",
593+
" - MLlib para aprendizaje automático, \n",
594+
" - GraphX para procesamiento de gráficos, y \n",
595+
" - Transmisión estructurada para procesamiento incremental y de streaming."
580596
]
581597
},
582598
{
@@ -932,39 +948,6 @@
932948
"- Las topologías y los componentes de procesamiento de Storm se pueden definir en cualquier idioma, lo que hace que Storm sea accesible para casi cualquier persona."
933949
]
934950
},
935-
{
936-
"cell_type": "markdown",
937-
"id": "f14c26e0",
938-
"metadata": {
939-
"slideshow": {
940-
"slide_type": "slide"
941-
}
942-
},
943-
"source": [
944-
"## Storm vs. Spark"
945-
]
946-
},
947-
{
948-
"cell_type": "markdown",
949-
"id": "0f90c48b",
950-
"metadata": {
951-
"slideshow": {
952-
"slide_type": "slide"
953-
}
954-
},
955-
"source": [
956-
"| Situación | Spark | Storm |\n",
957-
"|------- | ---------------- | -------- | \t\t\t\n",
958-
"| Stream processing | Batch processing | Micro-batch processing |\n",
959-
"| Latency | Latency of a few seconds | Latency of milliseconds |\n",
960-
"| Multi-language support | Lesser language support | Multiple language support |\n",
961-
"| Languages | Java – Scala | Java – Scala – Clojure |\n",
962-
"| Stream sources | HDFS | Spout |\n",
963-
"| Resource management | Yarn, Mesos | Yarn, Mesos |\n",
964-
"| Provisioning | Basic using Ganglia | Apache Ambari |\n",
965-
"| Messaging | Netty, Akka | ZeroMQ, Netty |"
966-
]
967-
},
968951
{
969952
"cell_type": "markdown",
970953
"id": "d8754350",
@@ -1013,7 +996,7 @@
1013996
},
1014997
"source": [
1015998
"- Alto rendimiento: \n",
1016-
" - Entregue mensajes con un rendimiento limitado de la red utilizando un grupo de máquinas (cluster) con una latencia de tan solo 2 ms."
999+
" - Entrega mensajes con un rendimiento limitado de la red utilizando un grupo de máquinas (cluster) con una latencia de tan solo 2 ms."
10171000
]
10181001
},
10191002
{
@@ -1025,7 +1008,7 @@
10251008
}
10261009
},
10271010
"source": [
1028-
"- Escalable\n",
1011+
"- Escalable:\n",
10291012
" - Es posible escalar clústeres de producción con hasta mil brokers, billones de mensajes por día, petabytes de datos, cientos de miles de particiones.\n",
10301013
" - También expandir y contraer elásticamente el almacenamiento y procesamiento."
10311014
]
@@ -1039,8 +1022,8 @@
10391022
}
10401023
},
10411024
"source": [
1042-
"- Almacenamiento permanente\n",
1043-
" - Almacene flujos de datos de forma segura en un clúster distribuido, duradero y tolerante a fallas."
1025+
"- Almacenamiento permanente:\n",
1026+
" - Almacena flujos de datos de forma segura en un clúster distribuido, duradero y tolerante a fallas."
10441027
]
10451028
},
10461029
{
@@ -1052,8 +1035,8 @@
10521035
}
10531036
},
10541037
"source": [
1055-
"- Alta disponibilidad\n",
1056-
" - Estire los clústeres de manera eficiente sobre las zonas de disponibilidad o conecte clústeres separados en regiones geográficas."
1038+
"- Alta disponibilidad:\n",
1039+
" - Extiende los clústeres de manera eficiente sobre las zonas de disponibilidad o los conecta separados en regiones geográficas."
10571040
]
10581041
},
10591042
{
@@ -1065,8 +1048,8 @@
10651048
}
10661049
},
10671050
"source": [
1068-
"- Procesamiento de flujo incorporado\n",
1069-
" - Procese secuencias de eventos con uniones, agregaciones, filtros, transformaciones y más, utilizando el procesamiento solo una vez con el tiempo de evento."
1051+
"- Procesamiento de flujo incorporado:\n",
1052+
" - Procesa secuencias de eventos con uniones, agregaciones, filtros, transformaciones y más, utilizando el procesamiento solo una vez con el tiempo de evento."
10701053
]
10711054
},
10721055
{
@@ -1078,7 +1061,7 @@
10781061
}
10791062
},
10801063
"source": [
1081-
"- Conéctese a casi cualquier cosa\n",
1064+
"- Conexión a múltiples fuentes:\n",
10821065
" - La interfaz *Connect* lista para usar de Kafka se integra con cientos de orígenes de eventos y receptores de eventos, incluidos PostgreSQL, JMS, Elasticsearch, AWS S3 y más."
10831066
]
10841067
},
@@ -1091,7 +1074,7 @@
10911074
}
10921075
},
10931076
"source": [
1094-
"- Bibliotecas de clientes\n",
1077+
"- Bibliotecas de clientes:\n",
10951078
" - Posibilidad de Leer, escribir y procesar flujos de eventos en una amplia gama de lenguajes de programación."
10961079
]
10971080
},
@@ -1104,7 +1087,7 @@
11041087
}
11051088
},
11061089
"source": [
1107-
"- Herramientas de código abierto para grandes ecosistemas\n",
1090+
"- Herramientas de código abierto para grandes ecosistemas:\n",
11081091
" - Gran ecosistema de herramientas de código abierto: existe una amplia gama de herramientas impulsadas por la comunidad."
11091092
]
11101093
},

0 commit comments

Comments
 (0)