🚀 28 октября – 9 декабря 2025
Прокачай
Spark-навыки
до уровня middle+
6 недель практики, облачный кластер и реальные задачи дата-инжиниринга:
подготовка витрин данных, создание real-time приложений и SCALA API
ЗАПИСАТЬСЯ

ЖИВЫЕ ЗАНЯТИЯ В ЗУМЕ

6 недель, 12 занятий в зуме по 3 часа с 19:00 до 22:00 мск

ФОРМАТ

Занятия с преподавателем, лайвкодинг, вопросы-ответы и поддержка координатора, общий чат с участниками потока. Облачный кластер для выполнения лаб

ПРАКТИЧЕСКИЙ ОПЫТ

Научитесь решать типичные задачи дата-инжиниринга с использованием Apache Spark
💬 ПОЧЕМУ ОБУЧЕНИЕ
НА SCALA?
Apache Spark создан на Scala – и именно этот язык раскрывает его возможности на 100%.
Работа через Python или SQL ограничивает производительность и гибкость решений.

Scala – компилируемый язык, обеспечивающий надёжность, предсказуемость и безопасность кода.
Поэтому его выбирают компании из банковской и финансовой сфер, где критичны стабильность, защита данных и контроль над процессами.
⚙️ БУДЕТ ЛИ ПОЛЬЗА, ЕСЛИ
Я ПИШУ НА PYTHON?
Да. Даже если вы работаете с PySpark, знание Scala помогает глубже понимать внутреннюю логику Spark – как устроено выполнение задач, почему одни операции работают быстрее других и как оптимизировать свой код.

Для продуктивной работы со Spark не нужно глубокое знание Scala – важно понимать паттерны работы с данными, и эти принципы универсальны для любого языка.
🚀 ЧТО Я ПОЛУЧУ
В РЕЗУЛЬТАТЕ?
В большинстве компаний для распределенных вычислений все еще используют Apache Spark – и наша программа помогает освоить его на практике. После обучения вы:

  1. Разберётесь, как устроен Spark и его API.
  2. Научитесь поднимать данные из разных источников.
  3. Сможете применять Spark API для batch- и витринных задач.
Полученные навыки помогут дата-инженеру расти быстрее и выходить на новый уровень уже через несколько месяцев.
Apache Spark –
ядро современных data-систем
Apache Spark – ключевая технология мира Big Data. Он позволяет обрабатывать огромные объёмы данных в распределённой среде, создавать витрины и real-time приложения, которые пересчитывают и обновляют данные в режиме реального времени. Благодаря высокой скорости и масштабируемости, Spark стал стандартом для построения аналитических платформ, систем машинного обучения и корпоративных дата-пайплайнов.

ЧЕМУ ВЫ НАУЧИТЕСЬ

SCALA API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
ВИТРИНЫ ДАННЫХ
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.
REAL-TIME
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.

КОМУ ПОДОЙДЕТ ПРОГРАММА

ДАТА-ИНЖЕНЕРЫ

У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на этой программе с заданиями, которые позволят вам отработать новые навыки на практике.

РАЗРАБОТЧИКИ

Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.

ДАТА-САЙЕНТИСТЫ

Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.

ЧТО ВХОДИТ В ПРОГРАММУ

12 ЗАНЯТИЙ
В Zoom в прямом эфире с преподавателями. На занятиях будет подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
5 ИНСТРУМЕНТОВ
Помимо самого Apache Spark вы поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
6 ЛАБ
Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.

ПРАКТИКА

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Лаба 0: подготовка
НАСТРОЙКА
ОКРУЖЕНИЯ В INTELLIJ IDEA
Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
Лаба 1
ТОП-150 РЕЛЕВАНТНЫХ URL С ПОМОЩЬЮ DATAFRAMES
В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
Лаба 2
СОЗДАНИЕ
ВИТРИНЫ ДАННЫХ
Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
Лаба 3 и суперачивка
СОХРАНЕНИЕ ЛОГОВ
ИЗ KAFKA ПРИ ПОМОЩИ SPARK
Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
Лаба 4
ПОДГОТОВКА
МАТРИЦЫ USERS X ITEMS
Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
Лаба 5
ПОДГОТОВКА МАТРИЦЫ ПРИЗНАКОВ ПО ЛОГАМ
Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.

ПРЕПОДАВАТЕЛИ

Учитесь у экспертов-практиков, которые могут донести сложный материал простым языком
  • ЕГОР МАТЕШУК
    Технический директор, ГПМ Дата
  • НИКОЛАЙ МАРКОВ
    Data Platform Lead, Altenar
CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
СТОИМОСТЬ УЧАСТИЯ

ОТЗЫВЫ ВЫПУСКНИКОВ

Андрей

★★★★★

Прекрасная программа с отменной организацией процесса. Здорово способствует пониманию «подкапотного пространства» спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе.

Евгений

★★★★☆

Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе.

Александр

★★★★★

Одна из лучших пройденных мной программ, прежде всего, по полноте и глубине представленного материала. Много практических задач, много примеров для понимание теории, подробное объяснение тем.

Григорий

★★★★☆

Понравилось, что преподаватели компетентны. Программа хороша для тех, кто уже работает со Spark и хочет вспомнить какие-то моменты или получить дополнительные знания.
АНТОН

★★★★★

Основной результаты программы для меня — знания и навыки работы со Spark и понимание, где искать ответы.
ЮЛИЯ

★★★★★

Мои ожидания от программы оправдались. Было много интересных практических заданий. Главное, я научилась работать с различными источниками данных.

ВХОДНЫЕ ТРЕБОВАНИЯ

Python, Java или Scala
Основной язык программы – Scala. Вы сможете без труда его освоить, если у вас уже есть опыт программирования на Java или Python. А если вы работали на этих языках со Spark, то это большое преимущество.
Базовые знания Linux
В командной строке Linux вы будете проводить много времени, работая со своим кластером. И хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, а также заходить на удаленный сервер по ssh.
Знание SQL
Знание языка SQL может пригодится для написания приложений с использованием SparkSQL. Также он будет полезен, когда вы будете работать с внешними источниками данных – Cassandra, PostrgreSQL.
Hadoop
Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы познакомитесь с этими инструментами заранее и будете понимать, для чего они нужны.

ИНФРАСТРУКТУРА ПРОГРАММЫ

Кластер
Каждый участник получает доступ к облачному кластеру для решения лаб с доступом через SSH и JupyterHub
GitHub
Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы
Личный кабинет
В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата

ЧАСТЫЕ ВОПРОСЫ

Алексей ответит на ваши вопросы в Телеграме
Telegram