CIENTÍFICO DE DATOS BIG DATA CLOUDERA

Inscripción finalizada
Image

DATOS BÁSICOS

Fecha fin inscripcion
Fecha prueba selección
Fecha inicio y fin del curso
Del 15/11/2023 al 30/11/2023
Horarios

Virtual de 16:00 a 21:00

Duración
48 horas
Número expediente
23/0999.038

REQUISITOS

Para un óptimo aprovechamiento del curso los participantes deberán disponer de conocimiento básico de lenguajes de programación como Python o R y algo de experiencia explorando y analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requiere conocimiento de Hadoop o Spark.

FINALIDAD

Los “data scientists” son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los “data scientists” al permitir el análisis de datos interactivos e iterativos a escala.<br/>Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. <br/>A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo.<br/>Al finalizar la formación, el participante conocerá:<br/>· Apache Spark 2 para Data Science y machine learning en flujos de trabajo a escala<br/>· Spark SQL y Dataframes para trabajar con datos estructurados<br/>· MLlib, la librería de Spark para machine learning<br/>· PySpark, la API de Python para Spark<br/>· Sparklyr, una interfaz de R compatible con dplyr para Spark<br/>· El Cloudera Data Science Workbench (CDSW)<br/>· Otros componentes del ecosistema Hadoop: HDFS, Hive, Impala y Hue

PROGRAMA

- Descripción general de la data science y el aprendizaje automático a escala
- Descripción general del ecosistema Hadoop
- Trabajando con datos HDFS y tablas Hive usando Hue
- Introducción a Cloudera Data Science Workbench
- Descripción general de Apache Spark 2
- Leer y escribir datos
- Inspeccionar la calidad de los datos
- Limpieza y transformación de datos.
- Resumen y agrupación de datos
- Combinar, dividir y remodelar datos
- Explorando datos
- Configuración, monitoreo y solución de problemas de aplicaciones Spark
- Descripción general del aprendizaje automático en Spark MLlib
- Extraer, transformar y seleccionar características
- Construyendo y evaluando modelos de regresión
- Construyendo y evaluando modelos de clasificación
- Construyendo y evaluando modelos de agrupamiento
- Modelos de validación cruzada e hiperparámetros de ajuste
- Construcción de tuberías de aprendizaje automático
- Implementación de modelos de aprendizaje automático

PROFESORES

Ricardo
Jaume
Albacar

RESPONSABLE DEL CURSO

Carlos Pedro Martí

TU COMUNIDAD

Foros de discusión
  • Dudas sobre el curso de Amazon Web Services

    1 hilos
  • Fotografía

    1 hilos
  • Dudas sobre el curso de CSS

    2 hilos