DATOS BÁSICOS
Virtual de 17:00 a 21:00
REQUISITOS
Para un óptimo aprovechamiento del curso los participantes deberán disponer de conocimiento básico de lenguajes de programación como Python o R y algo de experiencia explorando y analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requiere conocimiento de Hadoop o Spark.
FINALIDAD
Los “data scientists” son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los “data scientists” al permitir el análisis de datos interactivos e iterativos a escala.<br/>Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. <br/>A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo.<br/>Al finalizar la formación, el participante conocerá:<br/>· Apache Spark 2 para Data Science y machine learning en flujos de trabajo a escala<br/>· Spark SQL y Dataframes para trabajar con datos estructurados<br/>· MLlib, la librería de Spark para machine learning<br/>· PySpark, la API de Python para Spark<br/>· Sparklyr, una interfaz de R compatible con dplyr para Spark<br/>· El Cloudera Data Science Workbench (CDSW)<br/>· Otros componentes del ecosistema Hadoop: HDFS, Hive, Impala y Hue
PROGRAMA
- Descripción general del ecosistema Hadoop
- Trabajando con datos HDFS y tablas Hive usando Hue
- Introducción a Cloudera Data Science Workbench
- Descripción general de Apache Spark 2
- Leer y escribir datos
- Inspeccionar la calidad de los datos
- Limpieza y transformación de datos.
- Resumen y agrupación de datos
- Combinar, dividir y remodelar datos
- Explorando datos
- Configuración, monitoreo y solución de problemas de aplicaciones Spark
- Descripción general del aprendizaje automático en Spark MLlib
- Extraer, transformar y seleccionar características
- Construyendo y evaluando modelos de regresión
- Construyendo y evaluando modelos de clasificación
- Construyendo y evaluando modelos de agrupamiento
- Modelos de validación cruzada e hiperparámetros de ajuste
- Construcción de tuberías de aprendizaje automático
- Implementación de modelos de aprendizaje automático
RESPONSABLE DEL CURSO
TU COMUNIDAD
Foros de discusión
- Dudas sobre el curso de Amazon Web Services1 hilos
- Fotografía1 hilos
- Dudas sobre el curso de CSS2 hilos