DATOS BÁSICOS
Virtual horario obligatorio de 17:00-21:00 horas.
REQUISITOS
Trabajadores ocupados o desempleados en la Comunidad Autónoma de Aragón, de manera específica destinado a analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos.
Requisitos previos:
Se requieren conocimientos previos de SQL, así como estar familiarizado con la línea de comandos de Linux.
FINALIDAD
Los asistentes que completen con éxito este curso serán capaces de:<br/><br/>· Utilizar Apache Hive y Apache Impala para acceder a datos mediante consultas.<br/>· Identificar diferencias entre Hive e Impala, ya sea en sintaxis, formatos de datos o funcionalidades soportadas.<br/>· Escribir y ejecutar consultas que utilicen funciones, tanto dede agregado como subconsultas.<br/>· Utilizar joins y unions para combinar conjuntos de datos.<br/>· Crear, modificar y eliminar tablas, vistas y bases de datos.<br/>· Cargar datos en tablas y almacenar resultados de consultas.<br/>· Seleccionar formatos de archivos e implementar políticas de particionamiento para mejorar el rendimiento.<br/>· Utilizar funciones analíticas y de ventana para obtener información detallada sobre sus datos.<br/>· Almacenar y consultar estructuras de datos complejas o anidadas.<br/>· Procesar y analizar datos semiestructurados y no estructurados.<br/>· Optimizar y ampliar las capacidades de Hive e Impala.<br/>· Determinar si Hive, Impala, un sistema de gestión de bases de datos relacionales (RDBMS) o una combinación de estos es la mejor elección para una tarea específica.<br/>· Utilizar los beneficios de CDP Data Storage.<br/>· Creación de bases de datos y tablas.<br/>· Carga de datos.<br/>· Alteración de bases de datos y tablas.<br/>· Almacén de Datos en la Cloud Pública.<br/><br/>1.Examen de certificación incluido: CDP Data Analyst CDP-4001
PROGRAMA
Visión General del Análisis de Big Data
Almacenamiento de Datos: HDFS
Procesamiento Distribuido de Datos: YARN,
MapReduce y Spark
Procesamiento y Análisis de Datos: Hive e Impala
Integración de Bases de Datos: Sqoop
Otras Herramientas de Datos
Explicación del Escenario del Ejercicio
Introducción a Hive e Impala
¿Qué es Hive?
¿Qué es Impala?
¿Por qué utilizar Hive e Impala?
Schema y almacenamiento de datos
Comparación entre Hive y bases de datos tradicionales
Casos de uso
Consultas con Hive e Impala
Tablas y bases de datos
Sintaxis básica en consultas Hive e Impala
Tipos de datos
Empleo de Hue para ejecutar consultas
Empleo de Beeline (la Shell de Hive)
Empleo de la Shell de Impala
Operadores comunes y funciones integradas
Operadores
Funciones escalares
Funciones de agregado
Administración de datos
Almacenamiento de datos
Creación de bases de datos y tablas
Carga de datos
Modificación de bases de datos y tablas
Simplificación de consultas con vistas
Almacenamiento de resultados de consultas
Almacenamiento de datos y rendimiento
Particionamiento de tablas
Carga de datos en tablas particionadas
Cuándo utilizar particionamiento
Selección del formato de archivo
Uso de los formatos de archivo Avro y Parquet
Trabajando con múltiples Datasets
UNION y Joins
Manejo de valores NULL en Joins
Joins avanzados
Funciones analíticas y Windowing
Utilización de funciones analíticas comunes
Otras funciones analíticas
Ventanas deslizantes
Datos complejos
Datos complejos con Hive
Datos complejos con Impala
Análisis de texto
Empleo de expresiones regulares con Hive e Impala
Procesamiento de texto con SerDes en Hive
Análisis de Sentimiento y n-grams en Hive
Optimización de Apache Hive
Comprendiendo cómo se ejecutan las consultas
Optimización basada en Costes y Estadísticas
Bucketing
Optimizaciones de ficheros ORC
Indexación de datos
Hive en Spark
Optimización de Apache Impala
Cómo Impala ejecuta las consultas
Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
Customizar SerDes y formatos de archivo en Hive
Transformación de datos con Scripts personalizados en Hive
Funciones definidas por el usuario
Consultas parametrizadas
Selección de la Mejor Herramienta para cada Tarea
Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
¿Cuál elegir?
CDP Public Cloud Data Warehouse
Visión General del Data Warehouse en la Nube Pública
Autoescalado
Gestión de Data Warehouse
Consulta de Datos mediante CLI e Integración con Terceros
Appendix: Apache Kudu
¿Qué es Kudu?
Tablas Kudu
Uso de Impala con Kudu
PROFESORES
RESPONSABLE DEL CURSO
TU COMUNIDAD
Foros de discusión
- Dudas sobre el curso de Amazon Web Services1
- Fotografía1
- Dudas sobre el curso de CSS2