CIENTÍFICO DE DATOS BIG DATA CLOUDERA

DATOS BÁSICOS

Fecha fin inscripcion

29/10/2023

Fecha prueba selección

02/11/2023 - 18:00 horas

Fecha inicio y fin del curso

Del 15/11/2023 al 30/11/2023

Horarios

Virtual de 16:00 a 21:00

Duración

48 horas

Número expediente

23/0999.038

REQUISITOS

Para un óptimo aprovechamiento del curso los participantes deberán disponer de conocimiento básico de lenguajes de programación como Python o R y algo de experiencia explorando y analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requiere conocimiento de Hadoop o Spark.

FINALIDAD

Los “data scientists” son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los “data scientists” al permitir el análisis de datos interactivos e iterativos a escala. Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo. Al finalizar la formación, el participante conocerá: · Apache Spark 2 para Data Science y machine learning en flujos de trabajo a escala · Spark SQL y Dataframes para trabajar con datos estructurados · MLlib, la librería de Spark para machine learning · PySpark, la API de Python para Spark · Sparklyr, una interfaz de R compatible con dplyr para Spark · El Cloudera Data Science Workbench (CDSW) · Otros componentes del ecosistema Hadoop: HDFS, Hive, Impala y Hue

PROGRAMA

- Descripción general de la data science y el aprendizaje automático a escala
- Descripción general del ecosistema Hadoop
- Trabajando con datos HDFS y tablas Hive usando Hue
- Introducción a Cloudera Data Science Workbench
- Descripción general de Apache Spark 2
- Leer y escribir datos
- Inspeccionar la calidad de los datos
- Limpieza y transformación de datos.
- Resumen y agrupación de datos
- Combinar, dividir y remodelar datos
- Explorando datos
- Configuración, monitoreo y solución de problemas de aplicaciones Spark
- Descripción general del aprendizaje automático en Spark MLlib
- Extraer, transformar y seleccionar características
- Construyendo y evaluando modelos de regresión
- Construyendo y evaluando modelos de clasificación
- Construyendo y evaluando modelos de agrupamiento
- Modelos de validación cruzada e hiperparámetros de ajuste
- Construcción de tuberías de aprendizaje automático
- Implementación de modelos de aprendizaje automático

PROFESORES

Ricardo

Jaume

Albacar

RESPONSABLE DEL CURSO

Carlos Pedro Martí

TU COMUNIDAD

Foros de discusión

Dudas sobre el curso de Amazon Web Services

1 hilos
Fotografía

1 hilos
Dudas sobre el curso de CSS

2 hilos

Todos los hilos