Ближайший поток: 13 сентября – 27 октября 2023
APACHE SPARK
И SCALA
ДЛЯ ДАТА ИНЖИНИРИНГА

83 000 69 000 руб
по промокоду DE2023 при оплате
до 7 сентября 2023

Осталось 11 свободных мест!

ЗНАНИЯ ДЛЯ КАЖДОГО?
ДЛЯ КАЖДОГО JUNIOR DS/DE/DA!

ЧТО НАДО
ЗНАТЬ?
SQL
Phyton, Java или Scala
СКОЛЬКО НУЖНО СВОБОДНОГО ВРЕМЕНИ?
не меньше 10 свободных часов в неделю
НУЖНЫ ЛИ СВОИ ДАННЫЕ?
Нет, на программе каждый участник будет работать с реальными данными в облачном кластере

ЧЕМУ Я НАУЧУСЬ?

SCALA API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
ВИТРИНЫ ДАННЫХ
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.
REAL-TIME
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
ЧТО ПОЛУЧУ ПОСЛЕ ПОТОКА?
ПОВЫСИТСЯ ГРЕЙД ДО JUNIOR+ ИЛИ MIDDLE+
6 недель на потоке равны опыту года работы. Решите реальные рабочие задачи, про которые не стыдно рассказать на собеседовании и добавить в резюме

РОСТ ЗАРПЛАТЫ
Специалисты, владеющие APACHE SPARK на SCALA, получают ЗП до 340 000 руб.

РОСТ КОНКУРЕНТНОСПОСОБНОСТИ НА РЫНКЕ ТРУДА
APACHE SPARK входит в стек крупных компаний. Например, Сбер, Яндекс, Ozon.

КОНКУРЕНТНОСПОСОБНОСТЬ НА МЕЖДУНАРОДНОМ РЫНКЕ
Больше 10,000 вакансий дата-инженеров по всему миру со стеком Apache Spark для дата-инжиниринга
Новости мира данных, уникальные скидки на потоки, ламповое комьюнити.

КАК БУДЕТ ПРОХОДИТЬ ПОТОК?

12 ЗАНЯТИЙ
В Zoom в прямом эфире с преподавателями. На занятиях будет подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
5 ИНСТРУМЕНТОВ
Помимо самого Apache Spark вы поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
6 ЛАБ
Каждую неделю вам нужно будет решать лабораторную работу. Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.

ПРАКТИКА

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Лаба 0: подготовка
НАСТРОЙКА
ОКРУЖЕНИЯ В INTELLIJ IDEA
Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
Лаба 1
ТОП-150 РЕЛЕВАНТНЫХ URL С ПОМОЩЬЮ DATAFRAMES
В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
Лаба 2
СОЗДАНИЕ
ВИТРИНЫ
ДАННЫХ
Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
Лаба 3 и суперачивка
СОХРАНЕНИЕ ЛОГОВ
ИЗ KAFKA ПРИ ПОМОЩИ SPARK
Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
Лаба 4
ПОДГОТОВКА
МАТРИЦЫ
USERS X ITEMS
Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
Лаба 5
ПОДГОТОВКА
МАТРИЦЫ ПРИЗНАКОВ
ПО ЛОГАМ
Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.

ПРЕПОДАВАТЕЛИ

Учитесь у экспертов-практиков, которые могут донести сложный материал простым языком
  • ЕГОР МАТЕШУК
    Технический директор, ГПМ Дата
  • НИКОЛАЙ МАРКОВ
    Senior Principal Architect, Aligned Research Group
  • СЕРГЕЙ ГРИШАЕВ
    Architect, Сбермаркет

ОТЗЫВЫ ВЫПУСКНИКОВ

Андрей
Оценка ★★★★★
Прекрасная программа с отменной организацией процесса. Здорово способствует пониманию «подкапотного пространства» спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе.
Евгений
Оценка ★★★★☆
Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе.
Александр
Оценка ★★★★★
Одна из лучших пройденных мной программ, прежде всего, по полноте и глубине представленного материала. Много практических задач, много примеров для понимание теории, подробное объяснение тем.
Григорий
Оценка ★★★★☆
Понравилось, что преподаватели компетентны. Программа хороша для тех, кто уже работает со Spark и хочет вспомнить какие-то моменты или получить дополнительные знания.
Антон
Оценка ★★★★★
Основной результаты программы для меня — знания и навыки работы со Spark и понимание, где искать ответы.
Юлия
Оценка ★★★★☆
Мои ожидания от программы оправдались. Было много интересных практических заданий. Главное, я научилась работать с различными источниками данных.

ЧАСТЫЕ ВОПРОСЫ

83 000 69 000 руб
по промокоду DE2023 при оплате до 7 сентября 2023

Осталось 11 свободных мест!