Descripción
El curso trata de proporcionar los conceptos y habilidades necesarias para que los alumnos puedan controlar y gestionar el flujo de datos entre diferentes sistemas y un cluster de Big Data, Determina la forma en que se agregan los datos en una plataforma de Big Data donde se puede trabajar con diferentes formatos de datos y con diferentes frecuencias de entrada. El alumno puede conocer y practicar con Apache NiFi para crear flujos reales de datos.
Objetivos
Está dirigido principalmente a desarrolladores, Ingenieros de datos, científicos de datos que deban trabajar con streaming de datos, ingestión en múltiples formatos y deban crear soluciones sólidas en la captura de datos para data lakes.
Contenidos del curso
- Arquitectura
- Componentes de NiFi
- Arquitectura de Apache NiFi
- Integración con Hadoop
- Latidos entre componentes de NiFi
- El entorno de desarrollo GUI de NiFi
- Uso de Processors y Connections
- Configuración de Processors y Connections
- Paneles y menús de Processors y Connections
- Componentes de un Flujo
- Tareas adecuadas para un Flujo
- Gestión y composición de un flujo
- Etiquetas
- Establecer relaciones entre procesos
- Aplicar atributos y reglas
- FlowFiles: atributos y contenido
- Connectors
- Priorizadores y back pressure
- Grupos de procesadores
- Creación de bifurcaciones
- Plantillas NiFi de exportación
- Linaje de los flujos
- Desarrollo de flujos
- Ventajas al usar plantillas de dataflow
- El registro de NiFi: uso
- Bifurcación usando los atributos FlowFile
- Utilizando Expression Language
- Editanto con E.L.(Sintaxis)
- Estableciendo estructuras de control
- Arquitectura site-to-site
- Creación de arquitecturas remotas con NiFi
- Utilizando grupos remotos de proceso
- Instalación y configuración de grupos remotos
- Posibles optimizaciones de los flujos
- Necesidades de optimización por áreas
- Control de la frecuencia de transición de datos
- Conocer los recursos utilizados por un flujo
- Integración de NiFi con Hive
- Configuración servicio Hive
- El metastore de Hive
- Creando tablas en Hive a partir de datos NiFi
- Streaming data into Hive table
- Captura de datos de una tabla RDBMS con NiFi
- Usando plantillas de NiFi
- Utilizando formatos serializados como Avro
- Monitorización e informes
- Monitorización de un flujo NiFi
- Tipos de informes generados por NiFi
- Tareas más habituales en los informes
- Componentes que pueden ser monitorizados
- Conocer volumenes de datos
- El System Diagnostics como herramienta
- Histórico de estadisticas horario
- Utilizando los controller services
- Niveles de definición de los controller services
- Common Controller services
- Apache Minifi
- Conociendo el subproyecto de NiFi
- Características y componentes de Minifi
- Role de Minifi en la ingesta de datos
- Grupo de instancias Minifi para un flujo
- Interacción con los flujos de NiFi
- Un ejemplo walk-through
- Integración de NiFi
- Integración con Hadoop
- Integración con Apache Ambari y HDP
- Integración con Apache Kafka
- Integración con Cloudera
- Ecosistema de Processors
- Recibiendo datos de un topic
- Análisis en tiempo real
- Consideraciones de Kafka
- Seguridad con Apache NiFi
- Arquitectura de seguridad con NiFi
- Uso de Ranger con NiFi
- Asegurando el registry de NiFi
- Sistema de notificaciones asociados a eventos
- Configuración de usuarios y grupos
- Establecer políticas de acceso
- Acceso a NiFi via HTTPS y HTTP
- Autenticación vía Kerberos y LDAP
- Encriptación de datos con NiFi
Información extra
Estar familiarizado con el sistema de almacenamiento HDFS de Hadoop, haber trabajado con Sqoop o Flume o alguna herramienta de captura de datos.
Información general
Cursos de Desarrollo y Lenguajes en Big Data
Big Data
Presencial | Learning virtual class
Sin certificación