Можно пройти в любое время
APACHE SPARK
ADVANCED

Видеозаписи занятий и лабы
Помощь координатора

Можно пройти в любое время
APACHE SPARK
ADVANCED

Видеозаписи занятий и лабы
Помощь координатора

КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

Наша интенсивная программа содержит занятия с преподавателями-практиками и реальные задачи, которые помогут вам овладеть новыми инструментами.
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

Наша интенсивная программа содержит занятия с преподавателями-практиками и реальные задачи, которые помогут вам овладеть новыми инструментами.

ЧЕМУ ВЫ НАУЧИТЕСЬ

  • Dataframe API
    Разработка коннекторов в Dataframe API с использованием Datasource v1 API
  • Spark Structured Streaming API
    Разработка коннекторов в Spark Structured Streaming API с использованием Datasource v1 API
  • org.apache.spark.sql.Row
    Работа с org.apache.spark.sql.Row
  • py4j в pyspark
    Работа с py4j в pyspark
  • Scala UDF в pyspark
    Scala UDF в pyspark
  • Scala UDF в pyspark
    Управление параллелизмом задач
Для кого эта программа?
Программа разработана для дата-инженеров, имеющих практический опыт работы с Apache Spark и желающих изучить внутреннюю архитектуру проекта и получить опыт и знания, которые позволят ускорить обработку данных в существующих проектах.

ЧТО ВХОДИТ В ПРОГРАММУ

  • 8 ВИДЕО
    Видеозаписи занятий прошлого потока по 3 часа
  • 4 ЛАБЫ
    Каждую неделю вам нужно будет решать лабораторную работу – практическую задачу, максимально приближенную к реальным задачам дата-инженера

ЛАБОРАТОРНЫЕ РАБОТЫ

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
  • Лаба 1
    Разработка Encoder JSON to Row
  • ЛАБА 2
    Разработка коннектора для DataFrame API с использованием Datasource API v1
  • ЛАБА 3
    Добавление поддержки Predicate Pushdown в коннектор
  • Лаба 4
    Добавление поддержки Structured Streaming API в коннектор
ПРЕПОДАВАТЕЛЬ ПРОГРАММЫ
Сергей Гришаев, Architect, Сбермаркет

Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
CЕРТИФИКАТ
ОБ УСПЕШНОМ ПРОХОЖДЕНИИ

CЕРТИФИКАТ
ОБ УСПЕШНОМ
ПРОХОЖДЕНИИ

СТОИМОСТЬ ПРОГРАММЫ
59 000 руб.
Видеозаписи занятий прошлого потока, лабы и поддержка координатора. Можно пройти в любое время в своем темпе в течение 2 месяцев после начала.
  • Для физических лиц возможна рассрочка.
  • Для корпоративных клиентов — специальные условия при регистрации групп из более чем 3 участников.
  • Для выпускников наших программ и их друзей предусмотрены скидки.

Оставляйте заявку или звоните +74951288675, чтобы узнать подробности!

ВХОДНЫЕ ТРЕБОВАНИЯ

Для учебы вам потребуется
  • Опыт построения ETL и стриминг пайплайнов с помощью Apache Spark 2.4
  • Базовые знания Python
  • Понимание архитектуры распределенных вычислений с использованием HDFS, YARN
  • Практический опыт разработки на Scala
  • Базовые навыки Linux
  • Знание основ TCP/IP
ПАРТНЕР ПО ИНФРАСТРУКТУРЕ
Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.