|
880 | 880 | "- Para mayor información sobre los tipos de datos existe la norma ISO/IEC 11404:2007 (*International Organization for Standardization / International Electrotechnical Commission*) *General Purpose Datatypes.*" |
881 | 881 | ] |
882 | 882 | }, |
883 | | - { |
884 | | - "cell_type": "markdown", |
885 | | - "id": "e8b75594", |
886 | | - "metadata": { |
887 | | - "slideshow": { |
888 | | - "slide_type": "slide" |
889 | | - } |
890 | | - }, |
891 | | - "source": [ |
892 | | - "## Formatos de archivos para Big Data" |
893 | | - ] |
894 | | - }, |
895 | | - { |
896 | | - "cell_type": "markdown", |
897 | | - "id": "14b73559", |
898 | | - "metadata": { |
899 | | - "slideshow": { |
900 | | - "slide_type": "slide" |
901 | | - } |
902 | | - }, |
903 | | - "source": [ |
904 | | - "- Beneficios de elegir un formato apropiado de archivos:\n", |
905 | | - " - Tiempos de lectura y escritura más veloces.\n", |
906 | | - " - Se pueden dividir en múltiples discos.\n", |
907 | | - " - Compatibilidad con la evolución del esquema.\n", |
908 | | - " - Soporte de compresión." |
909 | | - ] |
910 | | - }, |
911 | | - { |
912 | | - "cell_type": "markdown", |
913 | | - "id": "22cd62e5", |
914 | | - "metadata": { |
915 | | - "slideshow": { |
916 | | - "slide_type": "slide" |
917 | | - } |
918 | | - }, |
919 | | - "source": [ |
920 | | - "- Formatos de archivos optimizados para Apache Hadoop:\n", |
921 | | - " - Apache Optimized Row Columnar (ORC) <https://orc.apache.org/>\n", |
922 | | - " - Apache Parquet (almacenamiento en columnas) <https://parquet.apache.org/documentation/latest/>\n", |
923 | | - " - Apache Avro (almacenamiento en fila) <https://avro.apache.org/>\n", |
924 | | - " - Avro es popular en sistemas de streaming con Kafka y Schema Registry gracias a su rendimiento. " |
925 | | - ] |
926 | | - }, |
927 | | - { |
928 | | - "cell_type": "markdown", |
929 | | - "id": "79c15def", |
930 | | - "metadata": { |
931 | | - "slideshow": { |
932 | | - "slide_type": "slide" |
933 | | - } |
934 | | - }, |
935 | | - "source": [ |
936 | | - "- Otros formatos de archivos:\n", |
937 | | - " - JSON <https://www.json.org/json-en.html>.\n", |
938 | | - " - CSV / TSV.\n", |
939 | | - " - XML." |
940 | | - ] |
941 | | - }, |
942 | 883 | { |
943 | 884 | "cell_type": "markdown", |
944 | 885 | "id": "ded0f15c", |
|
988 | 929 | "source": [ |
989 | 930 | "- Hoy se cuenta con la escalabilidad y elasticidad de *cloud data warehouses* y *data lakes*:\n", |
990 | 931 | " - Snowflake (*cloud data warehouse*).\n", |
991 | | - " - Databricks (*data lakes*).\n", |
| 932 | + " - Databricks (*data lake*).\n", |
992 | 933 | " - Amazon Redshift / EMR.\n", |
993 | 934 | " - Google BigQuery / Dataproc.\n", |
994 | 935 | " - Azure SQL Data Warehouse (SQL DW) / HD Insights." |
|
1003 | 944 | } |
1004 | 945 | }, |
1005 | 946 | "source": [ |
1006 | | - "## Data Lakes - Data Warehouses" |
| 947 | + "## Data Warehouses / Data Lakes / Lakehouses" |
1007 | 948 | ] |
1008 | 949 | }, |
1009 | 950 | { |
|
1027 | 968 | "- Los Almacenes de datos (*Data warehouses*) por otro lado, contienen datos estructurados y capacidad de realizar transacciones y gobernanza. (BI)." |
1028 | 969 | ] |
1029 | 970 | }, |
| 971 | + { |
| 972 | + "cell_type": "markdown", |
| 973 | + "id": "f9cede4b-ab2b-4fda-b04a-ed456cc90047", |
| 974 | + "metadata": {}, |
| 975 | + "source": [ |
| 976 | + "- Delta Lake <https://delta.io/> por otro lado, es un framework de almacenamiento de código abierto que permite crear una arquitectura Lakehouse sobre un lago de datos para proporcionar procesamiento de datos en streaming y por lotes." |
| 977 | + ] |
| 978 | + }, |
1030 | 979 | { |
1031 | 980 | "cell_type": "markdown", |
1032 | 981 | "id": "324cf4dc", |
|
1628 | 1577 | "source": [ |
1629 | 1578 | "- La ASF (*Apache Software Foundation*) <https://apache.org/> desarrolla, administra e incuba cientos de proyectos de código de fuente abierta (*open source*) de nivel empresarial utilizados mundialmente.\n", |
1630 | 1579 | "- Actualmente administra más de 70 proyectos relacionados con Big Data <https://projects.apache.org/projects.html?category#big-data>. \n", |
1631 | | - "- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase almacenamiento NoSQL escalable de datos.\n", |
| 1580 | + "- Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (*batch processing*) de grandes conjuntos de datos, Spark para procesamiento *in-memory* de datos y analítica, Kafka para la ingesta de datos en tiempo real y *streaming*; y Cassandra o HBase para el almacenamiento NoSQL escalable de datos.\n", |
1632 | 1581 | "- El blog de la ASF se encuentra en <https://news.apache.org/>." |
1633 | 1582 | ] |
1634 | 1583 | }, |
|
0 commit comments