Duración

5 días - 28 horas

Descripción

A lo largo de este curso los alumnos aprenderán los principales conceptos y adquirirán la experiencia necesaria para realizar la ingesta y procesamiento de datos en un clúster de Hadoop, haciendo uso de las herramientas y técnicas más actuales.
Utilizando el ecosistema de soluciones Hadoop como Spark, incluyendo Spark Streaming y Spark SQL, Flume, Kafka y Sqoop, este curso formativo es la mejor preparación para abordar los retos de proyectos del mundo real que caracterizan a los desarrolladores Hadoop.
Los alumnos aprenderán a identificar qué herramientas son las correctas en cada caso y obtendrán la experiencia necesaria para el desarrollo de aplicaciones en paralelo para la ejecución de decisiones más rápidas, y mejores, así como acciones interactivas aplicables a múltiples casos de uso, arquitecturas e industrias.

Objetivos

A través de las clases del instructor y los ejercicios prácticos, los alumnos aprenderán:
• Cómo se distribuyen, almacenan y procesan los datos en un clúster Hadoop
• Escribir, configurar y desplegar aplicaciones Spark en un clúster Hadoop
• Utilizar la Shell de Spark para el análisis interactivo de datos
• Procesar y consultar datos estructurados con Spark SQL
• Hacer uso de Spark Streaming para procesar flujos de datos en vivo
• Utilizar Flume y Kafka para la ingesta de datos a procesar por Spark Streaming

Contenidos del curso

Introducción

Introducción a Hadoop y al Ecosistema de Hadoop

• Un vistazo a Apache Hadoop
• Almacenamiento e ingesta de datos
• Procesamiento de datos
• Análisis y exploración de Datos
• Otras herramientas del Ecosistema

Sistema de ficheros de Apache Hadoop

• Problemas con los sistemas tradicionales para el gran almacenamiento de datos
• Arquitectura HDFS
• Uso de HDFS
• Formatos de fichero de Apache Hadoop

Procesamiento de datos en un clúster de Apache Hadoop

• Arquitectura de YARN
• Trabajando con YARN

Importando datos relacionales con Apache Sqoop

• Descripción de Sqoop
• Importación de datos
• Opciones de ficheros en la importación
• Exportación de datos

Las bases de Apache Spark

• Qué es Apache Spark?
• Utilizando la Shell de Spark
• RDDs (Resilient Distributed Datasets)
• Programación funcional con Spark

Trabajando con RDDs en Spark

• Creando RDDs
• Otras operaciones de carácter general con RDDs

Agregación de datos con Pares RDDs

• Pares RDDs Clave-Valor
• Map-Reduce
• Otras Operaciones con Pares RDD

Escribiendo y ejecutando aplicaciones Apache Spark

• Aplicaciones Spark vs la Shell de Spark
• Creación del SparkContext
• Construyendo una aplicación Spark (Scala y Java)
• Ejecutando una aplicación Spark
• La interfaz Spark Application Web UI

Configuración de aplicaciones Apache Spark

• Propiedades de configuración
• Sistema de logs

Procesamiento en paralelo con Apache Spark

• Repaso: Apache Spark en un clúster
• Particiones RDD
• Particionado de RDDs basadas en fichero
• HDFS y localización del dato
• Ejecución de operaciones en paralelo
• Fases y Tareas

Persistencia RDD

• Linaje RDD
• Descripción de la persistencia de RDD
• Persistencia distribuida

Patrones comunes en el procesamiento de datos con Spark

• Casos de uso comunes de Spark
• Algoritmos iterativos con Spark
• Maching Learning
• Ejemplo: k-means

Dataframes y Spark SQL

• Spark SQL y contexto SQL
• Creación de DataFrames
• Transformando y consultando DataFrames
• Guardando DataFrames
• Comparando Spark SQL con Impala y Hive sobre Spark
• Apache Spark SQL en Spark 2.x
Procesamiento de mensajes con Apache Kafka

• Qué es Apache Kafka?
• Un vistazo a Apache Kafka
• Escalado de Apache Kafka
• Arquitectura del clúster Apache Kafka
• Herramientas de línea de comandos de Apache Kafka

Captura de datos con Apache Flume

• Qué es Apache Flume?
• Arquitectura básica de Apache Flume
• Fuentes de Flume
• Destinos de Flume
• Canales de Flume
• Configuración de Flume

Integrando Apache Flume y Apache Kafka

• Descripción
• Casos de uso
• Configuración

Apache Spark Streaming

• Un vistazo a Apache Spark Streaming
• Ejemplo: Streaming de conteo de peticiones
• DStreams
• Desarrollo de aplicaciones en streaming

Apache Spark Streaming: Procesamiento de multiples batches

• Operaciones multi-batch
• Desplazamiento de tiempos
• Operaciones de estado
• Operaciones de desplazamiento de ventanas

Apache Spark Streaming: Fuentes de datos

• Un vistazo a las fuentes de datos en streaming
• Apache Flume y Apache Kafka como fuentes de datos
• Ejemplo: Utilizando Kafka Direct Data Source

Conclusión


Información extra

¿A quién está dirigido?

Este curso está orientado a desarrolladores e ingenieros de software con experiencia en programación.

Pre-requisitos

Conocimientos básicos en Scala y Python, así como tener la capacidad para trabajar sobre Linux. Conocimientos básicos de SQL son recomendables.

Información general

Área formativa

Cloudera Desarrollador

Fabricante

Cloudera

Metodología

Presencial

Certificación

Propia del fabricante

Garantía juvenil

 

¿TIENES DUDAS? PREGÚNTANOS

He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

 

 

Fecha y precios de nuestros cursos

Fecha Horario de impartición Ubicación Precio por alumno Previsto en fecha
23 Oct 2017
de 09:00 a 14:35h
Core Madrid
1670€ + IVA
Curso confirmado
11 Dec 2017
de 09:00 a 14:35h
Core Madrid
1670€ + IVA

¿Necesitas Ayuda?

Consúltanos si necesitas información de nuestros cursos o masters.

 

Contacta con Core Networks