Duración

5 días - 25 horas

Descripción

El curso instruye a los alumnos en el conocimiento de la arquitectura de la plataforma Hadoop para estar capacitado para instalar, configurar, administrar y poder resolver los problemas que puedan producirse en una infraestructura real.

 

Objetivos

Este curso está dirigido a aquellas personas cuya función es:

  • prestar soporte en temas de infraestructura de Hadoop,
  • mantener el correcto funcionamiento de la plataforma,
  • agregar componentes nuevos o retirarlos,
  • determinar el dimensionamiento de las partes que componen un cluster de Hadoop,
  • conocer las best-practices en esta área.

Contenidos del curso

  1. Arquitectura de la plataforma Hadoop
  • Arquitectura POC y en alta disponibilidad
  • Acciones de preinstalación de Hadoop
  • Tipos de instalación, manual y gráfica
  • Instalación con Packages o parcels: diferencias
  • Acciones de postinstalación de Hadoop
  • El role del gateway/edge
  • Alta disponibilidad con Zookeeper
  • Conocer la herramienta gráfica de administración

 

  1. Configuración de la plataforma
  • Configuración común componentes principales
  • Instalación de servicios: configuración
  • Modificar la configuración: acciones a tomar
  • Comprobaciones de componentes instalados
  • Situación y gestión de logs
  • Agregar nodos o retirarlos: best practices
  • Cómo detectar errores: acciones

 

  1. Almacenamiento y HDFS
  • Responsabilidades del NameNode y DataNode
  • Responsabilidades de los JournalNodes
  • Vigilancia del Namenode por Zookeeper
  • Características de HDFS: configuración
  • Establecer ACL’s y quotas
  • Tolerancia a fallos de HDFS
  • Erasure coding: Salomon algorithm
  • Conocer la seguridad básica de Hadoop
  • Comandos de administración de Hadoop
  • Interface REST: consultas administrativas
  • Herramientas de ingesta de datos
  • Crear diferentes zonas de almacenamiento
  • Influencia de los formatos en almacenamiento
  • Estrategias de almacenamiento: best practices
  • El síndrome del archivo pequeño

 

  1. Gestor de recursos: YARN
  • Responsabilidades de YARN
  • Scheduler de Yarn: Fair y Capacity
  • Gestión de colas: configuración
  • ResourceManager, Scheduler y NodeManager
  • El JobHistoryServer: visor de jobs
  • Interpretar las métricas del JobHistoryServer
  • Configuración de YARN: optimización
  • Ciclo de vida de los containers y el ApplicationMaster
  • Resolver problemas de ejecución con YARN
  • Monitorización de aplicaciones: acceso a Logs

 

  1. Clientes SQL: Apache Impala y Hive
  • Características de Hive: instalación
  • Arquitectura de Hive sobre YARN
  • El Metastore de Hive
  • Hive sobre Mapreduce y sobre Spark
  • HiveServer2 y HCatalog como API
  • El interface REST de Hive: ver queries
  • Apache Tez: Hive sobre Fez
  • Opearciones ACID con Hive: ORC
  • Arquitectura de Impala sobre admission control
  • El Statestore y Catalogd de Impala
  • Configuración de recursos para Apache Impala
  • Monitorizar las queries de Apache Impala
  • El Scheduler de Impala
  • Apache Hbase como base de datos NoSQL
  • Apache Phoenix como capa SQL para Hbase

 

  1. Planificar y dimensionar Hadoop
  • Arquitecturas de referencia
  • El software condiciona la planificación
  • Características del hardware
  • Arquitecturas híbridas y Cloud
  • Configuración de los masters y slaves
  • Tipos de Yarn Scheduler: selección colas
  • Configuración Admission control: Apache Impala
  • Heterogeneous storage
  • Consideraciones de RAM y CPU

 

  1. Monitorización y actuación ante fallos
  • Categorías de fallos y resolución
  • Problemas de instalación y de configuración
  • Problemas en ejecución y guía de actuación
  • Herramientas para la resolución de fallos
  • Interpretar las métricas y excepciones

 

  1. Seguridad con Hadoop
  • Seguridad básica en Hadoop
  • Autenticación y autorización
  • Kerberos MIT como sistema de autenticación
  • Instalar y configurar kerberos: práctica
  • Seguridad RESTy Kerberos
  • Crear zonas encriptadas con Apache Ranger
  • Apache Atlas: ¿cuál es su papel?

 

  1. Servicios de Hadoop para administradores
  • Apache HBase: Base de datos columnar
  • Implicaciones de HBase sobre el cluster
  • Apache Solr: características
  • Solr y el dimensionamiento del cluster
  • Apache Spartk: características
  • Versiones de Spark, diferencias e implicaciones
  • Apache Kafka: características y casos de uso
  • Modos de trabajo de Kafka:
  • Kafka como complemento a Spark


Información extra

Requisitos previos

Estar familiarizado con la administración de sistemas, haber trabajado con servidores web standalone o en cluster.

Información general

Área formativa

Cursos de Administración en Big Data

Fabricante

Big Data

Metodología

Presencial | Learning virtual class

Certificación

Sin certificación

 

¿TIENES DUDAS? PREGÚNTANOS

    He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

     

     

    Fecha y precios de nuestros cursos

    Fecha Horario de impartición Ubicación Precio por alumno Previsto en fecha
    No hay convocatoria programada. Por favor, consúltanos sobre próximas fechas y precio para esta formación.

    ¿Necesitas Ayuda?

    Consúltanos si necesitas información de nuestros cursos o masters.

     

    Contacta con Core Networks