Descripción
El curso trata de proporcionar los conceptos y habilidades necesarias para que los alumnos puedan desarrollar aplicaciones distribuidas con esta herramienta en tareas de modelado y análisis de datos, que puede ser usada en plataformas de Big Data, utilizando Scala o Python. El alumno puede conocer y practicar con los módulos como Streaming, SQL, GraphX o ML.
Está dirigido principalmente a desarrolladores, sobre todo para aquellos que tengan conocimientos y experiencia sobre el lenguaje de programación a usar: Scala o Python.
Objetivos
Está dirigido principalmente a desarrolladores, sobre todo para aquellos que tengan conocimientos y experiencia sobre el lenguaje de programación a usar: Scala o Python.
Contenidos del curso
- Arquitectura
- Componentes de Spark
- Spark bajo YARN
- Spark bajo Mesos
- Role del executor
- Desarrollo con DataFrames
- Ventajas de los DataFrames frente a RDD’s
- Inferencia del schema
- Creando un esquema: StructField y StructType
- Tipos de Joins
- Integración con el MetaStore de Hive
- Obtener un Dataframe vía JDBC
- Optimizando con cache y StorageLevel
- Monitorizando con Spark Web UI
- DataSets con Scala
- Uso de Avro y Parquet
- Evolución del esquema: reglas
- Uso de DataFrameReader y DataFrameWriter
- Trabajar con tablas particionadas
- Trabajando con RDD’s
- Tareas adecuadas para los RDD’s
- Características del RDD y linaje
- Tipos de RDD
- Cómo trabaja Spark y el D.AG.
- Métodos del RDD: ejemplos
- Agregación con RDD’s
- Optimización manual con los RDD’s
- Best practices con RDD’s
- Spark Web UI: monitorización
- Jupyter como herramienta de desarrollo
- Spark Streaming
- StreamingContext y DStream
- Tipos de fuentes de streaming
- Acceso al RDD con transform() y foreachRDD()
- Operaciones sin estado
- Operaciones con estado
- Uso de Windows y slice
- Uso de checkpoint
- Integración con Flume
- Integración con Kafka
- Integración con HBase
- Spark Structured streaming
- Diferencias con Spark Streaming tradicional
- Uso del módulo SQL con Streaming
- Catalyst optimizer
- Almacenando los resultados
- Trabajando con ventanas
- Uso de Watermarks
- Sources y Sinks disponibles
- Machine Learning con ML
- Fundamentos ML
- Lenguajes soportados
- Paquetes en ML
- Clasificación y regresión
- Clustering
- Filtrado colaborativo
- Creación y optimización de modelos
- Creación de grafos con GraphX
- Diagramas acíclicos vs ciclicos
- Casos de uso
- Tipos de operadores
- Operaciones sobre grafos
- Modificar la estructura
- Tipos de agregaciones
- Consultas sobre grafos
- Algoritmos
- Utilizando el módulo SparkR
- SparkdataFrame como sustituto de R DataFarame
- Crear un SparkDataFrame
- Orígenes de datos
- Conexión con el metastore de Hive
- Selección de datos: operaciones
- Agregación, agrupacion: operaciones
- Operaciones sobre columnas
- Usando UDF’s
- Algoritmos Machine learning soportados
Información general
Cursos de Desarrollo y Lenguajes en Big Data
Big Data
Presencial | Learning virtual class
Sin certificación