Duración

5 días – 28 horas

Descripción

Este curso de Cloudera University’s se centra en Apache Pig y Hive y Cloudera Impala y le enseñará a aplicar el análisis de datos tradicionales y habilidades de inteligencia de negocio para Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares. Apache Hive hacen que los datos multi-estructurados sean accesibles a los analistas, administradores de bases de datos, y otras personas sin conocimientos de programación Java. Apache Pig aplica los fundamentos de lenguajes de scripting familiares para el clúster Hadoop. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo.

Objetivos

A través de las clases del instructor y los ejercicios prácticos, los alumnos navegarán por el ecosistema Hadoop aprendiendo los puntos claves de éste:
• Las características que ofrecen Pig, Hive, e Impala para adquisición de datos, almacenamiento y análisis
• Los fundamentos de Hadoop, datos ETL (extracción, transformación, carga), ingestión, y el procesamiento con herramientas Hadoop
• Cómo Pig, Hive, e Impala mejoran la productividad de las tareas de análisis típicos
• Unir diversos conjuntos de datos para obtener información valiosa de negocio
• Realizar en tiempo real, consultas complejas sobre conjuntos de datos

Contenidos del curso

Introducción

 Fundamentos Hadoop

  • ¿Por qué Hadoop?
  • Aspectos generales de Hadoop
  • Almacenamiento de datos: HDFS
  • Procesamiento de datos distribuidos: YARN, MapReduce, y Spark
  • Procesamiento y análisis de datos: Pig, Hive, e Impala
  • Integración de datos: Sqoop
  • Otras herramientas de datos de Hadoop
  • Explicación del escenario de ejercicios

 Introducción a Pig

  • ¿Qué es Pig?
  • Características de Pig
  • Casos de empleo de Pig
  • Interación con Pig

 Análisis de datos básico con Pig

  • Sintaxis Pig Latin
  • Carga de datos
  • Tipos simples de datos
  • Definición de campos
  • Datos de salida
  • Vistas y esquemas
  • Filtrado y ordenación de datos
  • Funciones habituales

 Procesado de datos complejos con Pig

  • Formatos de almacenamiento
  • Tipos de datos complejos y anidados
  • Agrupaciones
  • Funciones predefinidas para datos complejos
  • Iteración de datos agrupados

 Operaciones con multiconjuntos de datos con Pig

  • Técnicas para combinar conjuntos de datos
  • Unión de conjuntos de datos con Pig
  • Conjunto de operaciones
  • División de conjuntos de datos

 Troubleshooting y optimización de Pig

  • Troubleshooting en Pig
  • Inicio de sesión
  • empleo de UI web Hadoop
  • Muestreo de datos y depuración
  • Visión general del rendimiento
  • Comprensión del plan de ejecución
  • Consejos para mejorar el rendimiento de Jobs en Pig

 Introducción a Hive e Impala

  • ¿Qué es Hive?
  • ¿Qué es Impala?
  • ¿Por qué usar Hive e Impala?
  • Esquema y almacenamiento de datos
  • Comparación entre Hive y bases de datos tradicionales
  • Casos de uso

 Consultas con Hive e Impala

  • Tablas y bases de datos
  • Sintaxis básica en consultas Hive e Impala
  • Tipos de datos
  • Empleo de Hue para ejecutar consultas
  • Empleo de Beeline (Shell de Hive)
  • Empleo de la shell de Impala

 Administración de datos

  • Almacenamiento de datos
  • Creación de bases de datos y tablas
  • Carga de datos
  • Alteración de bases de datos y tablas
  • Simplificación de consultas con vistas
  • Almacenamiento de resultados de consultas

 Almacenamiento de datos y rendimiento

  • Particionado de tablas
  • Carga de datos en tablas particionadas
  • Cuándo uso particionado
  • Selección del formato de fichero
  • Uso de los formatos Avro y Parquet

 Análisis de datos relacional con Hive e Impala

  • Unión de conjuntos de datos
  • Funciones predefinidas habituales
  • Agregaciones y Windowing

 Datos complejos con Hive e Impala

  • Datos complejos con Hive
  • Datos complejos con Impala

 Analizando texto con Hive e Impala

  • Empleo de expresiones regulares en Hive e Impala
  • Procesamiento de texto con SerDes en Hive
  • Análisis de sentimientos y N-Grams

 Optimización de Hive

  • Entendiendo el rendimiento de las consultas
  • Bucketing
  • Indexación de datos
  • Hive sobre Spark

 Optimización de Impala

  • Cómo Impala ejecuta las consultas
  • Mejorando el rendimiento de Impala

 Extensión de Hive e Impala

  • SerDes y ficheros de formatos a medida
  • Transfomación de datos con Scripts personalizados en Hive
  • Funciones definidas por usuarios
  • Consultas parametrizadas

 Elección de la mejor opción

  • Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales
  • ¿Cuál elegir?

 Conclusión


Información extra

¿A quién está dirigido?

Este curso está diseñado para analistas de datos, especialistas en inteligencia de negocio, desarrolladores arquitectos de sistemas y administradores de bases de datos

Pre-requisitos

Se requieren: conocimientos de SQL y familiaridad con comandos de  Linux; también se recomienda el manejo de algún lenguaje de scripting  (como Bash scripting, Perl, Python, Ruby), pero no es obligatorio. Por último, no es necesario tener conocimientos previos de Hadoop.

Información general

Área formativa

Cloudera Analista de Datos

Fabricante

Cloudera

Metodología

Presencial

Certificación

Propia del fabricante

Garantía juvenil

 

¿TIENES DUDAS? PREGÚNTANOS

He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

 

 

Fecha y precios de nuestros cursos

Fecha Horario de impartición Ubicación Precio por alumno Previsto en fecha
20 Nov 2017
de 09:00 a 14:35h
Core Madrid
1670€ + IVA

¿Necesitas Ayuda?

Consúltanos si necesitas información de nuestros cursos o masters.

 

Contacta con Core Networks