Duración

5 días - 28 horas

Descripción

Este curso de cinco días está pensado para prepararle a analizar y solventar los problemas del mundo real utilizando Apache Hadoop y las herramientas asociadas al centro de datos empresariales.

A lo largo del curso, trabajará a través de todo el proceso de diseño y construcción de soluciones, incluyendo los datos de ingestión, determinar el formato de archivo adecuado para el almacenamiento, el procesamiento de los datos almacenados, y presentar los resultados al usuario final en una forma fácil de interpretar. Irá más allá de MapReduce para utilizar elementos adicionales del centro de datos empresarial y desarrollar aplicaciones de convergencia que son altamente relevantes para el negocio.

Objetivos

A través de la realización de ejercicios prácticos, los participantes navegarán por el ecosistema Hadoop. Los principales ámbitos en los que se centrará el curso son los siguientes:

  • Creación de un conjunto de datos con el SDK de Kite
  • Desarrollar componentes personalizados Flume para la ingestión de datos
  • La gestión de un flujo de trabajo de varias etapas con Oozie
  • Análisis de los datos con Crunch
  • Escritura de funciones definidas por el usuario para Hive e Impala
  • Transformar datos con Morphlines
  • Indexación de datos con Cloudera Search

Contenidos del curso

Introducción

Arquitectura de Aplicaciones

  • Definición del entorno
  • Entender el entorno de desarrollo
  • La identificación y recolección de datos de entrada
  • Selección de herramientas para análisis de datos
  • La presentación de resultados al usuario

Definición y empleo de grupos de datos

  • Administración de metadatos
  • ¿Qué es Apache Avro?
  • Avro Schemas
  • Evolución de Avro Schema
  • Selección de formato de archivos
  • Consideraciones sobre el rendimiento

Empleo del módulo de datos Kite SDK

  • ¿Qué es el Kite SDK?
  • Conceptos fundamentales de módulos de datos
  • Creación de grupos de datos empleando el Kite SDK
  • Carga, acceso y eliminación de grupos de datos

Importación de datos relacionales con Apache Sqoop

  • ¿Qué es Apache Sqoop?
  • Principales importaciones
  • Limitar los resultados
  • Mejora del rendimiento de Sqoop
  • Sqoop 2

Captura de datos con Apache Flume

  • ¿Qué eis Apache Flume?
  • Arquitectura básica de Flume
  • Recursos Flume
  • Flume Sinks
  • Configuración de Flume
  • Registro de eventos de aplicación en Hadoop

 Desarrollo personalizado de componentes Flume

  • Flujo de datos Flume y Common Extension Points
  • Recursos personalizados en Flume
  • Desarrollo de código de consulta Flume
  • Desarrollo de código Flume Event-Driven
  • Interceptores personalizados en Flume
  • Desarrollo de una cabecera de Interceptores de modificación de Flume
  • Desarrollo de un filtro interceptor en Flume
  • Escribiro objetos interceptores Avr con canal de flujo personalizados

Administración de flujos de trabajo con Apache Oozie

  • La necesidad de gestión de flujo de trabajo
  • ¿Qué es Apache Oozie?
  • El flujo de trabajo Oozie
  • Validación, empaquetamiento y despliegue
  • Ejecución y seguimiento de flujos de trabajo empleando CLI
  • Hue UI para Oozie

Procesamiento de Pipelines de datos con Apache Crunch

  • ¿Qué es Apache Crunch?
  • Entender Crunch Pipeline
  • Comparación entre Crunch y Java MapReduce
  • Trabajo con proyectos Crunch
  • Lectura y escritura de datos en Crunch
  • APIs de colecciones de datos
  • Funciones
  • Clases de servicios públicos en la API Crunch

Trabajos con tablas en Apache Hive

  • ¿Qué es Apache Hive?
  • Acceso Hive
  • Sintaxis de consultas básicas
  • Crear y llenar tablas Hive
  • Cómo Hive lee datos
  • Empleo de RegexSerDe en Hive
  • Esquema del curso: Diseño y construcción de Aplicaciones Big Data

Desarrollo de funciones predefinidas por usuarios

  • ¿Qué son las funciones predefinidas por usuarios?
  • Implementación de funciones predefinidas por usuarios
  • Desarrollo de librerías configurables en Hive
  • Registo de funciones predefinidas por usuarios

Ejecución de consultas interactivas con Impala

  • ¿Qué es Impala?
  • Comparación entre Hive e Impala
  • Ejecución de consultas en Impala
  • Soporte para funciones predefinidas por usuarios
  • Gestión de datos y metadatos

Acercamiento a Cloudera Search

  • ¿Qué es Cloudera Search?
  • Arquitectura Search
  • Formato de documentos soportados

Indexación de datos con Cloudera Search

  • Administración de colecciones y Schemas
  • Morphlines
  • Indexación de datos en modo Batch
  • Indexación de datos próxima al tiempo real

Presentación de resultados a usuarios

  • Sintaxis de consultas Solr
  • Construcción de Search UI con Hue
  • Acceso a Impala a través de JDBC
  • Alimentación de una aplicación Web personalizada con Impala y Search

Conclusión


Información extra

¿A quién está dirigido?

Este curso está especialmente ideado para los desarrolladores, ingenieros y arquitectos que quieran utilizar herramientas de Hadoop y afines, para resolver problemas del mundo real.

Pre-requisitos

Los participantes ya deben haber asistido a Cloudera Desarrollador Formación para Apache Hadoop o tener experiencia profesional equivalente. Se requiere un buen conocimiento de Java y conocimientos básicos de Linux. También será recomendable tener experiencia de manejo básico de SQL.

NOTA IMPORTANTE

Este curso fue discontinuado por Cloudera el 31 de diciembre de 2016. Sólo se ofrece bajo demanda en sesiones de modalidad privada.

Información general

Área formativa

Cloudera Desarrollador

Fabricante

Cloudera

Metodología

Presencial

Certificación

Sin certificación

Garantía juvenil

 

¿TIENES DUDAS? PREGÚNTANOS

He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

 

 

Fecha Hora Ubicación Precio
No hay convocatoria programada. Por favor, consúltanos sobre próximas fechas y precio para esta formación.

¿Necesitas Ayuda?

Consúltanos si necesitas información de nuestros cursos o masters.

 

Contacta con Core Networks