Curso de Analista de datos SQL con Hive & Hbase - Core Networks | Expertos en Consultoría y Formación TI

Duración

5 días - 25 horas

Descripción

El curso trata de proporcionar los conceptos y habilidades necesarias para que los alumnos puedan desarrollar aplicaciones con Hive y HBase. El alumno conocerá como realizar sentencias SQL contra archivos almacenados en HDFS como si se trataran de tablas. Además conocerá como trabajar con datos complejos, de gran volumen o estructurados en lenguajes como JSON. En el curso se introduce al alumno a trabajar con HBase y llevar a cabo un desarrollo en torno a la misma.

Objetivos

Este curso está dirigido principalmente a desarrolladores, sobre todo para aquellos que tengan conocimientos y experiencia con SQL y que deseen adentrarse en el mundo de análisis de Big Data.

Contenidos del curso

Ingesta de datos

Herramienta de integración con RDBMS
Características de Sqoop
Operaciones con Sqoop
Formatos de serialización: Avro y Parquet
Compresión y particionado

Apache Hive

Arquitectura de Hive
Hcatalog y HiveServer2
El Metastore de Hive
HiveQL, databases y tablas
MapReduce y Spark para Hive
Hive no es una RDBMS
Introducción a HiveQL
Tipos de datos simples y complejos
Casting de datos y fuera de rango
Operadores
Tratamiento de valores null

Trabajando con tablas y datos en Hive

Particionado de tablas y bucketing
Tablas temporales y Vistas
Modificando tablas, particiones
Create table as select
Create table like
Carga de datos: Flume
Uso de HUE y Beeline

Funciones con Hive

Funciones incorporadas
Uso de las funciones incluidas
Funciones matemáticas y de fechas
Funciones con Strings y URL’s
Funciones de agregación

Manipulación de datos

Agregar registros a tabla existente
Crear nueva tabla a partir existente
Cruzar datos con Joins: tipos
Hive y los datos estructurados y complejos
Almacenar los resultados
Uso de expresiones regulares

Optimización de Hive

Particionado: estático y dinámico. Bucketing
Uso adecuado de Joins
Formatos de serialización
Best practices con compresión
Escenarios a evitar
Selección del motor distribuido: MR o Spark
Selección configuración adecuada

Apache HBase

Arquitectura de HBase y casos de uso
Características de HBase
HBase y HDFS
El shell de HBase
Hive como cliente de HBase
Apache Phoenix

Trabajando con tablas en HBase

Conceptos de Column Family y Column
Operaciones CRUD
Propiedades de Column Family
División de las tablas en regiones
RegionServers en HBase
Estructura de una HRegion
Hfiles y MemStore
Zookeeper, HBase Master y hbase:meta
El WAL y tolerancia a fallos

Diseño de tablas en HBase

Guias en el diseño de tablas
Desnormalización vs normalizaión
Diferencias con una RDBMS
Descubrir el patrón de acceso
Selección de estrategía para la RowKey
RowKey’s compuestas
Versions, Time-To-Live y Min-Versions
Compactaciones y Region splits

Optimización de HBase

Diseño de la RowKey
Diseño de la Column Family
BlockSize y Compression
Bloom filters e indices secundarios
Particionado de datos, indices
Estrategías de caching
HotSpot

Información extra

Requisitos previos

Requisitos previos

Estar familiarizado con el lenguaje SQL y haber con bases de datos tradicionales.

Información general

Área formativa

Cursos de Analista de Datos en Big Data

Fabricante

Big Data

Metodología

Presencial | Learning virtual class

Certificación

Sin certificación

¿TIENES DUDAS? PREGÚNTANOS

Fecha y precios de nuestros cursos

Fecha	Horario de impartición	Ubicación	Precio por alumno	Previsto en fecha

No hay convocatoria programada. Por favor, consúltanos sobre próximas fechas y precio para esta formación.

¿Necesitas Ayuda?

Consúltanos si necesitas información de nuestros cursos o masters.

Contacta con Core Networks