ANALYZING WITH CLOUDERA DATA WAREHOUSE -CERTIF: CDP DATA ANALYST

Inscripción finalizada
Image

DATOS BÁSICOS

Fecha fin inscripcion
Fecha prueba selección
Fecha inicio y fin del curso
Del 17/03/2025 al 03/04/2025
Horarios

Virtual horario obligatorio de 17:00-21:00 horas.

Duración
48 horas
Número expediente
25/0999.055

REQUISITOS

Trabajadores ocupados o desempleados en la Comunidad Autónoma de Aragón, de manera específica destinado a analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos.
Requisitos previos:
Se requieren conocimientos previos de SQL, así como estar familiarizado con la línea de comandos de Linux.

FINALIDAD

Los asistentes que completen con éxito este curso serán capaces de:<br/><br/>· Utilizar Apache Hive y Apache Impala para acceder a datos mediante consultas.<br/>· Identificar diferencias entre Hive e Impala, ya sea en sintaxis, formatos de datos o funcionalidades soportadas.<br/>· Escribir y ejecutar consultas que utilicen funciones, tanto dede agregado como subconsultas.<br/>· Utilizar joins y unions para combinar conjuntos de datos.<br/>· Crear, modificar y eliminar tablas, vistas y bases de datos.<br/>· Cargar datos en tablas y almacenar resultados de consultas.<br/>· Seleccionar formatos de archivos e implementar políticas de particionamiento para mejorar el rendimiento.<br/>· Utilizar funciones analíticas y de ventana para obtener información detallada sobre sus datos.<br/>· Almacenar y consultar estructuras de datos complejas o anidadas.<br/>· Procesar y analizar datos semiestructurados y no estructurados.<br/>· Optimizar y ampliar las capacidades de Hive e Impala.<br/>· Determinar si Hive, Impala, un sistema de gestión de bases de datos relacionales (RDBMS) o una combinación de estos es la mejor elección para una tarea específica.<br/>· Utilizar los beneficios de CDP Data Storage.<br/>· Creación de bases de datos y tablas.<br/>· Carga de datos.<br/>· Alteración de bases de datos y tablas.<br/>· Almacén de Datos en la Cloud Pública.<br/><br/>1.Examen de certificación incluido: CDP Data Analyst CDP-4001

PROGRAMA

Fundamentos para el Análisis de Big Data

Visión General del Análisis de Big Data
Almacenamiento de Datos: HDFS
Procesamiento Distribuido de Datos: YARN,
MapReduce y Spark
Procesamiento y Análisis de Datos: Hive e Impala
Integración de Bases de Datos: Sqoop
Otras Herramientas de Datos
Explicación del Escenario del Ejercicio

Introducción a Hive e Impala
¿Qué es Hive?
¿Qué es Impala?
¿Por qué utilizar Hive e Impala?
Schema y almacenamiento de datos
Comparación entre Hive y bases de datos tradicionales
Casos de uso

Consultas con Hive e Impala
Tablas y bases de datos
Sintaxis básica en consultas Hive e Impala
Tipos de datos
Empleo de Hue para ejecutar consultas
Empleo de Beeline (la Shell de Hive)
Empleo de la Shell de Impala

Operadores comunes y funciones integradas
Operadores
Funciones escalares
Funciones de agregado

Administración de datos
Almacenamiento de datos
Creación de bases de datos y tablas
Carga de datos
Modificación de bases de datos y tablas
Simplificación de consultas con vistas
Almacenamiento de resultados de consultas

Almacenamiento de datos y rendimiento
Particionamiento de tablas
Carga de datos en tablas particionadas
Cuándo utilizar particionamiento
Selección del formato de archivo
Uso de los formatos de archivo Avro y Parquet

Trabajando con múltiples Datasets
UNION y Joins
Manejo de valores NULL en Joins
Joins avanzados

Funciones analíticas y Windowing
Utilización de funciones analíticas comunes
Otras funciones analíticas
Ventanas deslizantes

Datos complejos
Datos complejos con Hive
Datos complejos con Impala

Análisis de texto
Empleo de expresiones regulares con Hive e Impala
Procesamiento de texto con SerDes en Hive
Análisis de Sentimiento y n-grams en Hive

Optimización de Apache Hive
Comprendiendo cómo se ejecutan las consultas
Optimización basada en Costes y Estadísticas
Bucketing
Optimizaciones de ficheros ORC
Indexación de datos
Hive en Spark

Optimización de Apache Impala
Cómo Impala ejecuta las consultas
Mejorar el rendimiento de Impala

Extendiendo Hive e Impala
Customizar SerDes y formatos de archivo en Hive
Transformación de datos con Scripts personalizados en Hive
Funciones definidas por el usuario
Consultas parametrizadas

Selección de la Mejor Herramienta para cada Tarea
Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
¿Cuál elegir?

CDP Public Cloud Data Warehouse
Visión General del Data Warehouse en la Nube Pública
Autoescalado
Gestión de Data Warehouse
Consulta de Datos mediante CLI e Integración con Terceros



Appendix: Apache Kudu
¿Qué es Kudu?
Tablas Kudu
Uso de Impala con Kudu

PROFESORES

Fernando
Lafora
Garcia

RESPONSABLE DEL CURSO

Jesús Enrique Duce Gonzaga

TU COMUNIDAD

Foros de discusión
  • Dudas sobre el curso de Amazon Web Services

    1
  • Fotografía

    1
  • Dudas sobre el curso de CSS

    2