Duración

4 días - 21 horas

Descripción

Usando escenarios y conjuntos de datos de una compañía de tecnología ficticia, los estudiantes descubren ideas para respaldar decisiones de negocios críticas y desarrollan productos de datos para transformar el negocio. El material se presenta a través de una secuencia de conferencias breves, demostraciones interactivas, ejercicios prácticos extensos y discusiones. Las demostraciones y los ejercicios de Apache Spark ™ se realizan en Python (con PySpark) y R (con sparklyr) utilizando el entorno de Cloudera Data Science Workbench (CDSW).

Este taller cubre flujos de trabajo de aprendizaje de ciencia de datos y de máquina a escala utilizando Apache Spark 2 y otros componentes clave de un ecosistema de big data. El taller enfatiza el uso de la ciencia de la información y los métodos de aprendizaje automático para abordar los desafíos empresariales del mundo real.

Objetivos

Los participantes adquieren habilidades prácticas y experiencia práctica con herramientas de ciencia de datos que incluyen:

  • Spark, Spark SQL y Spark MLlib
  • PySpark y sparklyr
  • Cloudera Data Science Workbench (CDSW)
  • Hue

Contenidos del curso

 

El taller incluye conferencias breves, demostraciones interactivas, ejercicios prácticos y discusiones que cubren temas que incluyen:

  • Visión general de la ciencia de datos y el aprendizaje automático a escala
  • Visión general del ecosistema de Hadoop
  • Trabajar con datos HDFS y tablas Hive usando Hue
  • Introducción a Cloudera Data Science Workbench
  • Descripción general de Apache Spark 2
  • Lectura y escritura de datos.
  • Inspeccionar la calidad de los datos.
  • Limpieza y transformación de datos.
  • Resumir y agrupar datos.
  • Combinar, dividir y remodelar datos
  • Exploración de datos
  • Configuración, monitoreo y solución de problemas de aplicaciones Spark
  • Descripción del aprendizaje automático en Spark MLlib
  • Extracción, transformación y selección de características.
  • Construyendo y evaluando modelos de regresión.
  • Construyendo y evaluando modelos de clasificación.
  • Construyendo y evaluando modelos de clustering.
  • Validación cruzada de modelos y ajuste de hiperparámetros.
  • Construcción de tuberías de aprendizaje automático.
  • Implementación de modelos de aprendizaje automático.


Información extra

Audiencia

El taller está diseñado para científicos de datos que actualmente utilizan Python o R para trabajar con conjuntos de datos más pequeños en una sola máquina y que necesitan escalar sus análisis y modelos de aprendizaje automático a grandes conjuntos de datos en grupos distribuidos.

Los ingenieros de datos y los desarrolladores con cierto conocimiento de la ciencia de datos y el aprendizaje automático también pueden encontrar útil este taller.

Pre-requisitos

Los participantes del taller deben tener un conocimiento básico de Python o R y algo de experiencia en explorar y analizar datos y desarrollar modelos estadísticos o de aprendizaje automático. No se requiere conocimiento de Hadoop o Spark.

Información general

Área formativa

Cloudera Analista de Datos

Fabricante

Cloudera

Metodología

Presencial

Certificación

Sin certificación

Garantía juvenil

 

¿TIENES DUDAS? PREGÚNTANOS

He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

 

 

Fecha Hora Ubicación Precio
No hay convocatoria programada. Por favor, consúltanos sobre próximas fechas y precio para esta formación.

¿Necesitas Ayuda?

Consúltanos si necesitas información de nuestros cursos o masters.

 

Contacta con Core Networks