Duración

5 días - 28 horas

Descripción

Este curso de administrador de Cloudera para Apache Hadoop ofrece un conocimiento global de todas las medidas necesarias para operar y mantener un clúster Hadoop. Desde la instalación y la configuración a través de balanceo de carga y tuning, es la mejor preparación para los desafíos a los que se enfrentan los administradores de Hadoop

Objetivos

A través de las clases del instructor y los ejercicios prácticos, los alumnos aprenderán:
• El funcionamiento interno de YARN, MapReduce, Spark y HDFS
• Las características de Cloudera Manager que harán que la gestión de sus clústeres sea más sencilla, como logging agregado, gestión de la configuración, gestión de recursos, informes, alertas y gestión del servicio
• A determinar el hardware e infraestructura correcta para su clústerLa configuración más adecuada y el despliegue para integrar Hadoop en su centro de datos
• Cómo cargar datos en el clúster desde ficheros generados dinámicamente utilizando Flume y desde RDBMS utilizando Sqoop
• A configurar FairScheduler para proveer de acuerdos de nivel de servicio a múltiples usuarios de un clúster
• Las mejores prácticas para preparar y mantener Apache Hadoop en producción
• Troubleshooting, diagnosis, tuning y resolución de problemas en Hadoop

Contenidos del curso

Introducción

La necesidad de Apache Hadoop

• Por qué Hadoop?
• Conceptos fundamentales
• Componentes del núcleo de Hadoop

Instalación del clúster Hadoop

• Razones fundamentales para una solución de gestión del cluster
• Características de Cloudera Manager
• Instalación de Cloudera Manager
• Instalación de Hadoop (CDH)

Sistema de ficheros distribuido de Hadoop (HDFS)

• Características de HDFS
• Escritura y lectura de ficheros
• Consideraciones de memoria del NameNode
• Descripción de la seguridad HDFS
• WebUI para HDFS
• Utilizando la Shell de Hadoop
• Más tecnologías de almacenamiento

MapReduce y Spark en YARN

• El rol de los frameworks de computación
• YARN: El gestor de recursos del clúster
• Conceptos de MapReduce
• Conceptos de Spark
• Ejecución de frameworks de computación en YARN
• Exploración de las aplicaciones YARN a través de su interfaz web y la Shell
• Logs de las aplicaciones YARN

Configuración de Hadoop y demonios de logs

• Uso de Cloudera Manager para la gestión de configuraciones
• Localización de configuración y aplicación de cambios
• Gestión de instancias y agregación de servicios
• Configuración del servicio HDFS
• Configuración de los demonios de logs de Hadoop
• Configuración del servicio YARN

Añadiendo datos en HDFS

• Ingesta de datos desde fuentes externas con Flume
• Ingesta de datos desde bases de datos relacionales con Sqoop
• Interfaces REST
• Mejores prácticas para la importación de datos

Planificación del clúster Hadoop

• Consideraciones generales sobre la planificación
• Selección del hardware correcto
• Opciones de virtualización
• Consideraciones de red
• Configuración de nodos

Instalación y configuración de Hive, Impala y Pig

• Hive
• Impala
• Pig
• Cloudera Search

Clientes Hadoop incluyendo Hue

• ¿Qué son los clientes Hadoop?
• Instalación y configuración de clientes Hadoop
• Autenticación y autorización en Hue
• Oozie Workflows

Configuración avanzada del clúster

• Parámetros de configuración avanzados
• Configuración de puertos en Hadoop
• Configuración de HDFS para la organización en rack
• Configuración de HDFS en alta disponibilidad

Seguridad Hadoop

• ¿Por qué la seguridad en Hadoop es importante?
• Conceptos sobre el sistema de seguridad de Hadoop
• Qué es Kerberos y cómo funciona?
• Securización de un clúster Hadoop con Kerberos
• Otros conceptos de seguridad

Gestión de recursos

• Configuración de cgroups con pooles de servicios estáticos
• El FairScheduler
• Configuración de pooles de recursos dinámicos
• Configuración de la memoria y CPU en YARN
• Planificador de consultas en Impala

Mantenimiento del clúster

• Comprobación del estado de HDFS
• Copia de datos entre clústeres
• Agregación y eliminación de nodos en el clúster
• Rebalanceo del clúster
• Creación de snapshots de directorios
• Actualización del clúster

Monitorización del clúster y troubleshooting

• Características de monitorización de Cloudera Manager
• Monitorización de clusters Hadoop
• Troubleshooting de clústeres Hadoop
• Fallos de configuración habituales

Conclusión

Certificación relacionada (no incluida)

Tras la finalización del curso, se anima a los asistentes a continuar su estudio y a registrarse al examen Cloudera Certified Administrator for Apache Hadoop (CCAH). Obtener la certificación marca una gran diferencia. Le ayuda a establecerse como un líder en el campo, proveyendo a empleados y clientes de una evidencia tangible de sus habilidades y experiencia.


Información extra

¿A quién está dirigido?

Este curso es el más adecuado para los administradores de sistemas y gerentes de TI.

Pre-requisitos

Experiencia básica de Linux.

Información general

Área formativa

Cloudera Administrador

Fabricante

Cloudera

Metodología

Presencial

Certificación

Propia del fabricante

Garantía juvenil

 

¿TIENES DUDAS? PREGÚNTANOS

He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

 

 

Fecha y precios de nuestros cursos

Fecha Hora Ubicación Precio Confirmado
25 Sep 2017
de 09:00 a 14:35h
Core Madrid
1670€ + IVA
13 Nov 2017
de 09:00 a 14:35h
Core Madrid
1670€ + IVA
18 Dec 2017
de 09:00 a 14:35h
Core Madrid
1670€ + IVA

¿Necesitas Ayuda?

Consúltanos si necesitas información de nuestros cursos o masters.

 

Contacta con Core Networks