Duración

3 días

Descripción

CURSO IMPARTIDO POR CLOUDERA. CURSO EN INGLÉS

 

Los científicos de datos construyen plataformas que proveen de una visión en profundidad de los datos de las compañías, permitiendo responder a preguntas antes inimaginables. Spark y Hadoop están transformando cómo los científicos de datos trabajan permitiendo el análisis interactivo e iterativo de datos a gran escala.

Aprenda cómo Spark y Hadoop permite a los científicos de datos a ayudar a las compañías a reducir costes, incrementar los beneficios, mejorar los productos, mantener a sus clientes e identificar nuevas oportunidades.

Este curso ayudará a los asistentes a entender que hacen los científicos de datos, los tipos de problemas que resuelven y las herramientas y técnicas que utilizan. A través de las simulaciones realizadas en clase, los participantes aplicarán los métodos utilizados por los científicos de datos basados en desafíos del mundo real en distintos tipos de industria, y finalmente, a prepararse para asumir los distintos roles de un científico de datos.

Objetivos

A través de las clases del instructor y los ejercicios prácticos, los alumnos aprenderán:

  • Cómo identificar casos de uso de negocio potenciales donde el científico de datos puede aportar resultados impactantes.
  • Cómo obtener, limpiar y combinar fuentes de datos dispares para crear una imagen coherente para su análisis.
  • Qué métodos estadísticos aprovechar para la exploración de datos que provean de una visión crítica sobre los mismos.
  • Dónde y cuándo aprovechar Hadoop streaming y Apache Spark en los procesos
  • Qué técnicas de Machine Learning utilizar para un projecto de data science en particular
  • Cómo implementar y gestionar recomendadores utilizando Spark MLlib, y cómo configurar y evaluar distintos experimentos de datos.
  • Cuáles son los peligros de la implementación de nuevos proyectos de análisis en producción, a escala

Contenidos del curso

Introducción

Introducción a Data Science

  • Qué es Data Science
  • La creciente necesidad de Data Science
  • El rol del científico de Datos

Casos de uso

  • Sector financiero
  • Distribución minorista
  • Empresas de publicidad
  • Defensa e inteligencia
  • Telecomunicaciones e Industria
  • Sector sanitario y farmacéuticas

Ciclo de vida de un proyecto

  • Pasos en el ciclo de vida de un proyecto
  • Explicación del escenario de laboratorio

Adquisición de datos

  • De dónde extraer los datos
  • Técnicas de adquisición

Evaluación de los datos de entrada

  • Formato de datos
  • Cantidad de datos
  • Calidad de datos

Transformación de datos

  • Conversión del formato de datos
  • Enlazando conjuntos de datos
  • Anonimación

 Análisis de datos y métodos estadísticos

  • Relación entre estadística y probabilidad
  • Estadística descriptiva
  • Estadística inferencial
  • Vectores y matrices

Fundamentos de Machine Learning

  • Introducción
  • Las tres Cs de Maching Learning
  • La importancia de los datos y algoritmos
  • Clasificador Bayesiano Ingenuo

Introducción a los sistemas de recomendaciones

  • Qué es un sistema de recomendación
  • Tipos de filtrados colaborativos
  • Limitaciones de los sistemas de recomendación
  • Conceptos fundamentales

Introducción a Apache Spark y MLlib

  • Qué es Apache Spark
  • Comparación con MapReduce
  • Fundamentos de Apache Spark
  • Librería Spark MLlib

 Implementación de sistemas de recomendación con MLlib

  • Introducción métodos ALS para sistemas de recomendación de factor latente
  • Hiperparámetros para sistemas de recomendación ALS
  • Construcción de un sistema de recomendación con MLlib
  • Optimización de los hiperparámetros
  • Ponderación

Experimentación y evaluación

  • Diseño de experimientos efectivos
  • Realización de un experimento eficaz
  • Interfaces de usuario para los sistemas de recomendación

Despliegue en producción y más allá

  • Despliegue en producción
  • Trucos y técnicas para trabajar a grandes escalas
  • Resumiendo y visualizando resultados
  • Consideraciones para la mejora
  • Siguientes pasos para los sistemas de recomendación

Conclusión


Información extra

¿A quién está dirigido?

Este curso está pensado para desarrolladores, analistas de datos y estadísticos.

Pre-requisitos

Conocimientos básicos de Hadoop: HDFS, MapReduce, Streaming, y Apache Hive. Conocimientos básicos de Linux. Conocimientos para el desarrollo en alguno de estos lenguajes: Python (recomendado), Perl o Ruby.

Información general

Área formativa

Cloudera Analista de Datos

Fabricante

Cloudera

Metodología

Presencial

Certificación

Sin certificación

Garantía juvenil

 

¿TIENES DUDAS? PREGÚNTANOS

He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

 

 

Fecha Hora Ubicación Precio
No hay convocatoria programada. Por favor, consúltanos sobre próximas fechas y precio para esta formación.

¿Necesitas Ayuda?

Consúltanos si necesitas información de nuestros cursos o masters.

 

Contacta con Core Networks