Descripción
El curso instruye a los alumnos en el conocimiento de la arquitectura de la plataforma Hadoop para estar capacitado para instalar, configurar, administrar y poder resolver los problemas que puedan producirse en una infraestructura real.
Objetivos
Este curso está dirigido a aquellas personas cuya función es:
- prestar soporte en temas de infraestructura de Hadoop,
- mantener el correcto funcionamiento de la plataforma,
- agregar componentes nuevos o retirarlos,
- determinar el dimensionamiento de las partes que componen un cluster de Hadoop,
- conocer las best-practices en esta área.
Contenidos del curso
- Arquitectura de la plataforma Hadoop
- Arquitectura POC y en alta disponibilidad
- Acciones de preinstalación de Hadoop
- Tipos de instalación, manual y gráfica
- Instalación con Packages o parcels: diferencias
- Acciones de postinstalación de Hadoop
- El role del gateway/edge
- Alta disponibilidad con Zookeeper
- Conocer la herramienta gráfica de administración
- Configuración de la plataforma
- Configuración común componentes principales
- Instalación de servicios: configuración
- Modificar la configuración: acciones a tomar
- Comprobaciones de componentes instalados
- Situación y gestión de logs
- Agregar nodos o retirarlos: best practices
- Cómo detectar errores: acciones
- Almacenamiento y HDFS
- Responsabilidades del NameNode y DataNode
- Responsabilidades de los JournalNodes
- Vigilancia del Namenode por Zookeeper
- Características de HDFS: configuración
- Establecer ACL’s y quotas
- Tolerancia a fallos de HDFS
- Erasure coding: Salomon algorithm
- Conocer la seguridad básica de Hadoop
- Comandos de administración de Hadoop
- Interface REST: consultas administrativas
- Herramientas de ingesta de datos
- Crear diferentes zonas de almacenamiento
- Influencia de los formatos en almacenamiento
- Estrategias de almacenamiento: best practices
- El síndrome del archivo pequeño
- Gestor de recursos: YARN
- Responsabilidades de YARN
- Scheduler de Yarn: Fair y Capacity
- Gestión de colas: configuración
- ResourceManager, Scheduler y NodeManager
- El JobHistoryServer: visor de jobs
- Interpretar las métricas del JobHistoryServer
- Configuración de YARN: optimización
- Ciclo de vida de los containers y el ApplicationMaster
- Resolver problemas de ejecución con YARN
- Monitorización de aplicaciones: acceso a Logs
- Clientes SQL: Apache Impala y Hive
- Características de Hive: instalación
- Arquitectura de Hive sobre YARN
- El Metastore de Hive
- Hive sobre Mapreduce y sobre Spark
- HiveServer2 y HCatalog como API
- El interface REST de Hive: ver queries
- Apache Tez: Hive sobre Fez
- Opearciones ACID con Hive: ORC
- Arquitectura de Impala sobre admission control
- El Statestore y Catalogd de Impala
- Configuración de recursos para Apache Impala
- Monitorizar las queries de Apache Impala
- El Scheduler de Impala
- Apache Hbase como base de datos NoSQL
- Apache Phoenix como capa SQL para Hbase
- Planificar y dimensionar Hadoop
- Arquitecturas de referencia
- El software condiciona la planificación
- Características del hardware
- Arquitecturas híbridas y Cloud
- Configuración de los masters y slaves
- Tipos de Yarn Scheduler: selección colas
- Configuración Admission control: Apache Impala
- Heterogeneous storage
- Consideraciones de RAM y CPU
- Monitorización y actuación ante fallos
- Categorías de fallos y resolución
- Problemas de instalación y de configuración
- Problemas en ejecución y guía de actuación
- Herramientas para la resolución de fallos
- Interpretar las métricas y excepciones
- Seguridad con Hadoop
- Seguridad básica en Hadoop
- Autenticación y autorización
- Kerberos MIT como sistema de autenticación
- Instalar y configurar kerberos: práctica
- Seguridad RESTy Kerberos
- Crear zonas encriptadas con Apache Ranger
- Apache Atlas: ¿cuál es su papel?
- Servicios de Hadoop para administradores
- Apache HBase: Base de datos columnar
- Implicaciones de HBase sobre el cluster
- Apache Solr: características
- Solr y el dimensionamiento del cluster
- Apache Spartk: características
- Versiones de Spark, diferencias e implicaciones
- Apache Kafka: características y casos de uso
- Modos de trabajo de Kafka:
- Kafka como complemento a Spark
Información extra
Requisitos previos
Estar familiarizado con la administración de sistemas, haber trabajado con servidores web standalone o en cluster.
Información general
Área formativa
Cursos de Administración en Big Data
Fabricante
Big Data
Metodología
Presencial | Learning virtual class
Certificación
Sin certificación