Duración

5 días - 25 horas

Descripción

El curso trata de proporcionar los conceptos y habilidades necesarias para que los alumnos puedan desarrollar aplicaciones distribuidas con esta herramienta en tareas de modelado y análisis de datos, que puede ser usada en plataformas de Big Data, utilizando Scala o Python. El alumno puede conocer y practicar con los módulos como Streaming, SQL, GraphX o ML.

Está dirigido principalmente a desarrolladores, sobre todo para aquellos que tengan conocimientos y experiencia sobre el lenguaje de programación a usar: Scala o Python.

Objetivos

Está dirigido principalmente a desarrolladores, sobre todo para aquellos que tengan conocimientos y experiencia sobre el lenguaje de programación a usar: Scala o Python.

Contenidos del curso

  1. Arquitectura
  • Componentes de Spark
  • Spark bajo YARN
  • Spark bajo Mesos
  • Role del executor

 

  1. Desarrollo con DataFrames
  • Ventajas de los DataFrames frente a RDD’s
  • Inferencia del schema
  • Creando un esquema: StructField y StructType
  • Tipos de Joins
  • Integración con el MetaStore de Hive
  • Obtener un Dataframe vía JDBC
  • Optimizando con cache y StorageLevel
  • Monitorizando con Spark Web UI
  • DataSets con Scala
  • Uso de Avro y Parquet
  • Evolución del esquema: reglas
  • Uso de DataFrameReader y DataFrameWriter
  • Trabajar con tablas particionadas

 

  1. Trabajando con RDD’s
  • Tareas adecuadas para los RDD’s
  • Características del RDD y linaje
  • Tipos de RDD
  • Cómo trabaja Spark y el D.AG.
  • Métodos del RDD: ejemplos
  • Agregación con RDD’s
  • Optimización manual con los RDD’s
  • Best practices con RDD’s
  • Spark Web UI: monitorización
  • Jupyter como herramienta de desarrollo

 

  1. Spark Streaming
  • StreamingContext y DStream
  • Tipos de fuentes de streaming
  • Acceso al RDD con transform() y foreachRDD()
  • Operaciones sin estado
  • Operaciones con estado
  • Uso de Windows y slice
  • Uso de checkpoint
  • Integración con Flume
  • Integración con Kafka
  • Integración con HBase

 

  1. Spark Structured streaming
  • Diferencias con Spark Streaming tradicional
  • Uso del módulo SQL con Streaming
  • Catalyst optimizer
  • Almacenando los resultados
  • Trabajando con ventanas
  • Uso de Watermarks
  • Sources y Sinks disponibles

 

  1. Machine Learning con ML
  • Fundamentos ML
  • Lenguajes soportados
  • Paquetes en ML
  • Clasificación y regresión
  • Clustering
  • Filtrado colaborativo
  • Creación y optimización de modelos

 

  1. Creación de grafos con GraphX
  • Diagramas acíclicos vs ciclicos
  • Casos de uso
  • Tipos de operadores
  • Operaciones sobre grafos
  • Modificar la estructura
  • Tipos de agregaciones
  • Consultas sobre grafos
  • Algoritmos

 

  1. Utilizando el módulo SparkR
  • SparkdataFrame como sustituto de R DataFarame
  • Crear un SparkDataFrame
  • Orígenes de datos
  • Conexión con el metastore de Hive
  • Selección de datos: operaciones
  • Agregación, agrupacion: operaciones
  • Operaciones sobre columnas
  • Usando UDF’s
  • Algoritmos Machine learning soportados

Información general

Área formativa

Cursos de Desarrollo y Lenguajes en Big Data

Fabricante

Big Data

Metodología

Presencial | Learning virtual class

Certificación

Sin certificación

 

¿TIENES DUDAS? PREGÚNTANOS

    He leído y acepto la del sitio y las condiciones de tratamiento de mis datos de carácter personal

     

     

    Fecha y precios de nuestros cursos

    Fecha Horario de impartición Ubicación Precio por alumno Previsto en fecha
    No hay convocatoria programada. Por favor, consúltanos sobre próximas fechas y precio para esta formación.

    ¿Necesitas Ayuda?

    Consúltanos si necesitas información de nuestros cursos o masters.

     

    Contacta con Core Networks