CLOUDERA DATA ENGINEERING DENG-254: CDP DATA ENGINEER

¡Inscribete ahora!
Image

DATOS BÁSICOS

Fecha fin inscripcion
Fecha prueba selección
Fecha inicio y fin del curso
Del 08/06/2026 al 25/06/2026
Horarios

Virtual en horario obligatorio de 16:30-20:30 horas.

Duración
48 horas
Número expediente
26/0999.047

REQUISITOS

Trabajadores ocupados o desempleados en la Comunidad Autónoma de Aragón, especialmente desarrolladores e ingenieros de datos. Proporciona conceptos clave y el conocimiento necesario para utilizar Apache Spark para desarrollar aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).

Los ejercicios prácticos permiten la creación de aplicaciones Spark que se integran con los componentes principales de CDP. Se aprenderá a usar Spark SQL para consultar datos estructurados, a usar las funciones de Hive para ingerir y desnormalizar datos, y a trabajar con big data almacenado en un sistema de archivos distribuido.

Requisitos:
Experiencia básica en Linux y competencias básicas en los lenguajes de programación Python o Scala. Es recomendable disponer de conocimientos básicos de SQL.
No se requieren conocimientos previos de Spark y Hadoop.

FINALIDAD

Una vez finalizado el curso el alumno habrá adquirido los siguientes conocimientos y habilidades:<br/>- Distribuir, almacenar y procesar datos en un clúster CDP.<br/>- Codificar, configurar e implementar aplicaciones Apache Spark.<br/>- Utilizar los intérpretes y las aplicaciones de Spark para explorar, procesar y analizar datos distribuidos.<br/>- Consultar datos utilizando Spark SQL, DataFrames y tablas de Hive.<br/>- Implementar una aplicación Spark en el servicio de ingeniería de datos. <br/><br/>Examen de certificación incluido: Exam CDP Data Engineer CDP 3002.

PROGRAMA

Introducción a HDFS
Visión general de HDFS.
Componentes e interacciones de HDFS.
Interacciones adicionales de HDFS.
Visión general de Ozone.
Ejercicio: Trabajar con HDFS.

Introducción a YARN
Visión general de YARN.
Componentes e interacción de YARN.
Trabajar con YARN.
Ejercicio: Trabajar con YARN.

Trabajar con RDDs
Conjuntos de datos distribuidos resilientes (RDDs).
Ejercicio: Trabajar con RDDs.

Trabajar con marcos de datos (DataFrames)
Introducción a los DataFrames.
Ejercicio: Introducción a los DataFrames.
Ejercicio: Lectura y escritura de DataFrames.
Ejercicio: Trabajar con columnas.
Ejercicio: Trabajar con tipos complejos.
Ejercicio: Combinar y dividir DataFrames.
Ejercicio: Resumir y agrupar DataFrames.
Ejercicio: Trabajar con UDFs.
Ejercicio: Trabajar con ventanas.

Introducción a Apache Hive
Acerca de Hive.
Transformación de datos con Hive QL.

Trabajar con Apache Hive
Ejercicio: Trabajar con particiones.
Ejercicio: Trabajar con buckets.
Ejercicio: Trabajar con datos sesgados (Skew).
Ejercicio: Usar Serdes para digerir datos de texto.
Ejercicio: Usar tipos complejos para desnormalizar datos.

Integración de Hive y Spark
Integración de Hive y Spark.
Ejercicio: Integración de Spark con Hive.

Desafíos del procesamiento distribuido
Shuffle.
Skew.
Order.

Procesamiento distribuido de Spark
Procesamiento distribuido de Spark.
Ejercicio: Explorar el orden de ejecución de consultas.

Persistencia distribuida de Spark
Persistencia de DataFrames y Datasets.
Niveles de almacenamiento de persistencia.
Visualización de RDDs persistentes.
Ejercicio: Persistir DataFrames.

Servicio de Ingeniería de Datos
Crear y activar trabajos ad hoc de Spark.
Orquestar un conjunto de trabajos usando Airflow.
Lineaje de datos usando Atlas.
Escalado automático en el Servicio de Ingeniería de Datos.

Workload XM
Optimizar trabajos, rendimiento, capacidad.
Identificar trabajos de Spark no óptimos.

Apéndice: Trabajar con conjuntos de datos en Scala
Trabajar con Datasets en Scala.
Ejercicio: Usar Datasets en Scala.

RESPONSABLE DEL CURSO

Jesús Enrique Duce Gonzaga

TU COMUNIDAD

Foros de discusión
  • Dudas sobre el curso de Amazon Web Services

    1 hilos
  • Fotografía

    1 hilos
  • Dudas sobre el curso de CSS

    2 hilos