Apache Spark 3 для задач дата-инжиниринга

НАЧАТЬ УЧИТЬСЯ

БЕЗ ГРУППЫ: старт 1 июля

APACHE SPARK 3 и Scala

для дата-инжиниринга

◉ подготовка витрин данных
◉ создание real-time приложений
◉ Scala API
◉ Видео о программе

Видео-лекции
по 3 часа
с тайм-метками

Можно пройти в своем темпе в любое время в течение 2-х месяцев. Материалы программы останутся у вас навсегда.

2 месяца практики в рабочей инфраструктуре
и помощь координатора

10 тестов и 6 лаб для отработки новых навыков и знаний, которые сможете сразу применять в работе.

Проверка знаний

и 2 месяца помощи от эксперта из индустрии

На связи два раза в неделю с вами будет координатор, который поможет разобраться с лабами и пройти программу успешно.

КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ

Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

ЧЕМУ ВЫ НАУЧИТЕСЬ

SCALA API

Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.

ВИТРИНЫ ДАННЫХ

Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.

REAL-TIME

Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.

ДЛЯ КОГО

ДАТА-ИНЖЕНЕРЫ
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на этой программе с заданиями, которые позволят вам отработать новые навыки на практике.

РАЗРАБОТЧИКИ
Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.

ДАТА-САЙЕНТИСТЫ
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.

ЧТО ВХОДИТ В ПРОГРАММУ

11 ЗАНЯТИЙ

Трехчасовые записи занятий прошлых потоков с тайм-метками, где подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.

5 ИНСТРУМЕНТОВ

Помимо самого Apache Spark вы поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.

6 ЛАБ

Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.

ПРАКТИКА

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни

Лаба 0: подготовка
НАСТРОЙКА
ОКРУЖЕНИЯ В INTELLIJ IDEA

Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.

Лаба 1
ТОП-150 РЕЛЕВАНТНЫХ URL С ПОМОЩЬЮ DATAFRAMES

В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.

Лаба 2
СОЗДАНИЕ
ВИТРИНЫ ДАННЫХ

Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.

Лаба 3 и суперачивка
СОХРАНЕНИЕ ЛОГОВ
ИЗ KAFKA ПРИ ПОМОЩИ SPARK

Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.

Лаба 4
ПОДГОТОВКА
МАТРИЦЫ USERS X ITEMS

Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.

Лаба 5
ПОДГОТОВКА МАТРИЦЫ ПРИЗНАКОВ ПО ЛОГАМ

Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.

ПРЕПОДАВАТЕЛИ

Учитесь у экспертов-практиков, которые могут донести сложный материал простым языком

ЕГОР МАТЕШУК

Технический директор, ГПМ Дата
СЕРГЕЙ ГРИШАЕВ

Senior Data Engineer, Wildberries

CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ

Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.

CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ

Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.

СТОИМОСТЬ УЧАСТИЯ

11 видеолекций и 2 месяца на выполнение лаб, помощь координатора, реальный результат.
Все материалы остаются у вас навсегда.

65 000₽ | $700

Нужно обучить сотрудников? Проведем поток программы специально для вас (от 10 человек)

ОПЛАТИТЬ В РУБЛЯХ ОПЛАТИТЬ 50% В РАССРОЧКУ

Чтобы оплатить иностранной картой, напишите нам в Телеграм

ОТЗЫВЫ ВЫПУСКНИКОВ

Прекрасная программа с отменной организацией процесса. Здорово способствует пониманию «подкапотного пространства» спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе.

Андрей

Оценка ★★★★★
Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе.

Евгений

Оценка ★★★★☆
Одна из лучших пройденных мной программ, прежде всего, по полноте и глубине представленного материала. Много практических задач, много примеров для понимание теории, подробное объяснение тем.

Александр

Оценка ★★★★★
Понравилось, что преподаватели компетентны. Программа хороша для тех, кто уже работает со Spark и хочет вспомнить какие-то моменты или получить дополнительные знания.

Григорий

Оценка ★★★★☆
Основной результаты программы для меня — знания и навыки работы со Spark и понимание, где искать ответы.

Антон

Оценка ★★★★★
Мои ожидания от программы оправдались. Было много интересных практических заданий. Главное, я научилась работать с различными источниками данных.

Юлия

Оценка ★★★★☆

ВХОДНЫЕ ТРЕБОВАНИЯ

Python, Java или Scala

Основной язык программы – Scala. Вы сможете без труда его освоить, если у вас уже есть опыт программирования на Java или Python. А если вы работали на этих языках со Spark, то это большое преимущество.

Базовые знания Linux

В командной строке Linux вы будете проводить много времени, работая со своим кластером. И хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, а также заходить на удаленный сервер по ssh.

Знание SQL

Знание языка SQL может пригодится для написания приложений с использованием SparkSQL. Также он будет полезен, когда вы будете работать с внешними источниками данных – Cassandra, PostrgreSQL.

Hadoop

Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы познакомитесь с этими инструментами заранее и будете понимать, для чего они нужны.

ИНФРАСТРУКТУРА ПРОГРАММЫ

Кластер

Каждый участник получает доступ к облачному кластеру для решения лаб с доступом через SSH и JupyterHub

GitHub

Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы

Личный кабинет

В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата