ANALISTA DE DATOS CLOUDERA

DATOS BÁSICOS

Fecha fin inscripcion

08/09/2023

Fecha prueba selección

11/09/2023 - 19:00 horas

Fecha inicio y fin del curso

Del 18/09/2023 al 05/10/2023

Horarios

Tardes de lunes a jueves

Duración

48 horas

Número expediente

23/0999.037

REQUISITOS

Para un máximo aprovechamiento del curso, Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. No son necesarios conocimientos de Hadoop.

FINALIDAD

Este curso se centra en Apache Hive y Cloudera Impala, y tiene como objetivo enseñar a los alumnos a aplicar análisis de datos tradicionales y obtener la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares. Apache Hive hace que los datos multi-estructurados sean accesibles a para los analistas, administradores de bases de datos, y otras personas sin conocimientos de programación Java. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo. La presente formación prepara a los participantes para obtener la certificación como Cloudera Certified Professional Data Analyst (CCP Data Analyst) que acredita las competencias que un profesional TIC dispone en el uso y aplicación de los elementos y herramientas que componen el ecosistema de Cloudera. La Certificación Cloudera Certified Data Analyst, ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguientes áreas: · Preparar los datos · Proporcionar estructura a los datos · Análisis de datos Examen de certificación incluido: CCP: Cloudera Certified Data Analyst

PROGRAMA

Examen de certificación incluido: CDP Certified Data Analyst
Módulo 1: Introducción
Modulo 2: Fundamentos Hadoop
· ¿Por qué Hadoop?
· Aspectos generales de Hadoop
· Almacenamiento de datos: HDFS
· Procesamiento de datos distribuidos: YARN, MapReduce, y Spark
· Procesamiento y análisis de datos: Hive, e Impala
· Integración de datos: Sqoop
· Otras herramientas de datos de Hadoop
· Explicación del escenario con ejercicios
Módulo 3: Introducción a Hive e Impala
· ¿Qué es Hive?
· ¿Qué es Impala?
· ¿Por qué utilizar Hive e Impala?
· Schema y almacenamiento de datos
· Comparación entre Hive y bases de datos tradicionales
· Casos de uso
Módulo 4: Consultas con Hive e Impala
· Tablas y bases de datos
· Sintaxis básica en consultas Hive e Impala
· Tipos de datos
· Empleo de Hue para ejecutar consultas
· Empleo de Beeline (la Shell de Hive)
· Empleo de la Shell de Impala
Módulo 5 Operadores comunes y funciones integradas
· Operadores
· Funciones escalares
· Funciones de agregación
Módulo 6 Administración de datos
· Almacenamiento de datos
· Creación de bases de datos y tablas
· Carga de datos
· Alteración de bases de datos y tablas
· Simplificación de consultas con vistas
· Almacenamiento de resultados de consultas
Módulo 7 Almacenamiento de datos y rendimiento
· Partición de tablas
· Carga de datos en tablas particionadas
· Cuándo utilizar el particionamiento
· Elección de formato de almacenamiento
· Gestión de metadatos
· Control de acceso a datos
Módulo 8 Trabajando con múltiples Datasets
· UNION y Joins
· Manejo de valores NULL en Joins
· Joins avanzados
Módulo 9 Funciones analíticas y funciones de ventana
· Utilización de funciones analíticas comunes
· Otras funciones analíticas
· Ventanas deslizantes
Módulo 10 Datos complejos
· Datos complejos con Hive
· Datos complejos con Impala
Módulo 11 Análisis de texto
· Empleo de expresiones regulares
· Procesamiento de texto con SerDes en Hive
· Análisis de los sentimientos y n-grams
Módulo 12 Optimización Hive
· Rendimiento de las consultas
· Bucketing
· Indexación de datos
· Hive en Spark
Módulo 13 Optimización de Impala
· Ejecución de consultas
· Mejorar el rendimiento de Impala
Módulo 14 Extendiendo Hive e Impala
· Customizar SerDes y formatos de fichero en Hive
· Transformación de datos con Scripts personalizados en Hive
· Funciones definidas por el usuario
· Consultas parametrizadas
Módulo 15 Elección de la mejor opción
· Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
· ¿Cuál elegir?
Módulo 16 Conclusión

Apéndice A: Apache Kudu
· ¿Qué es Kudu?
· Tablas Kudu
· Uso de Impala con Kudu

PROFESORES

Eduardo

Supuerta

Diez

RESPONSABLE DEL CURSO

Carlos Pedro Martí

TU COMUNIDAD

Foros de discusión

Dudas sobre el curso de Amazon Web Services

1 hilos
Fotografía

1 hilos
Dudas sobre el curso de CSS

2 hilos

Todos los hilos