программа для Junior и middle

APACHE SPARK и SCALA

ДЛЯ ДАТА-ИНЖИНИРИНГА ▶️ видео-отзыв

Подготовка витрин данных, cоздание real-time приложений, Scala API
можно начать в любое время без потока
Видео-лекции
по 3 часа
с тайм-метками
Можно пройти в своем темпе в любое время в течение 2-х месяцев. Материалы программы останутся у вас навсегда.
2 месяца практики в рабочей инфраструктуре
и помощь координатора
10 тестов и 6 лаб для отработки новых навыков и знаний, которые сможете сразу применять в работе.

Проверка знаний

и 2 месяца помощи от эксперта из индустрии

На связи два раза в неделю с вами будет координатор, который поможет разобраться с лабами и пройти программу успешно.
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

ЧЕМУ ВЫ НАУЧИТЕСЬ

SCALA API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
ВИТРИНЫ ДАННЫХ
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.
REAL-TIME
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
КОМУ БУДЕТ
ПОЛЕЗНА
ПРОГРАММА
ДАТА-ИНЖЕНЕРЫ
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на этой программе с заданиями, которые позволят вам отработать новые навыки на практике.

РАЗРАБОТЧИКИ
Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.

ДАТА-САЙЕНТИСТЫ
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.


ЧТО ВХОДИТ В ПРОГРАММУ

11 ВИДЕО-ЛЕКЦИЙ
3-х часовые записи занятий прошлых потоков с тайм-метками, где подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
5 ИНСТРУМЕНТОВ
Помимо самого Apache Spark вы поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
6 ЛАБ
Каждую неделю вам нужно будет решать лабораторную работу. Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.

ПРАКТИКА

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Лаба 0: подготовка
НАСТРОЙКА
ОКРУЖЕНИЯ В INTELLIJ IDEA
Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
Лаба 1
ТОП-150 РЕЛЕВАНТНЫХ URL С ПОМОЩЬЮ DATAFRAMES
В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
Лаба 2
СОЗДАНИЕ
ВИТРИНЫ
ДАННЫХ
Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
Лаба 3 и суперачивка
СОХРАНЕНИЕ ЛОГОВ
ИЗ KAFKA ПРИ ПОМОЩИ SPARK
Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
Лаба 4
ПОДГОТОВКА
МАТРИЦЫ
USERS X ITEMS
Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
Лаба 5
ПОДГОТОВКА
МАТРИЦЫ ПРИЗНАКОВ
ПО ЛОГАМ
Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.

ПРЕПОДАВАТЕЛИ

Вы получаете доступ к лекциям потока программы Spark Scala для дата-инжиниринга,
который прошел в феврале-марте 2022 года, и преподавателями тогда выступили:
  • ЕГОР МАТЕШУК
    CDO, Qvant
  • АНДРЕЙ ТИТОВ
    Senior Spark Engineer
CЕРТИФИКАТ
НА АНГЛИЙСКОМ ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.

CЕРТИФИКАТ
ОБ УСПЕШНОМ
ПРОХОЖДЕНИИ

СТОИМОСТЬ УЧАСТИЯ
11 видео-лекций, 6 лаб, 10 тестов, помощь координатора, сертификат при успешном прохождении. Записи занятий и материалы остаются у вас навсегда.
59 000₽ 69 000 ₽ | $490 $690
стоимость действует только до 31 декабря 2024
Оставьте заявку до конца года и оплатите в течение 2 недель января по старой цене
Оставляйте заявку или звоните +74951288675, чтобы узнать подробности.
Сейчас платить не нужно. Оплата только после общения с менеджером.
Можно оплатить иностранной картой.
СТОИМОСТЬ УЧАСТИЯ
59 000₽ 69 000 ₽
$490 $690
стоимость действует только до 31 декабря 2024
Оставьте заявку до конца года и оплатите в течение 2 недель января по старой цене
8 недель и 8 живых занятий с экспертом из индустрии в зуме, реальный результат в конце, поддержка и обратная связь.

Записи занятий и материалы остаются у вас навсегда.

ОТЗЫВЫ ВЫПУСКНИКОВ

Андрей
Оценка ★★★★★
Прекрасная программа с отменной организацией процесса. Здорово способствует пониманию «подкапотного пространства» спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе.
Евгений
Оценка ★★★★☆
Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе.
Александр
Оценка ★★★★★
Одна из лучших пройденных мной программ, прежде всего, по полноте и глубине представленного материала. Много практических задач, много примеров для понимание теории, подробное объяснение тем.
Григорий
Оценка ★★★★☆
Понравилось, что преподаватели компетентны. Программа хороша для тех, кто уже работает со Spark и хочет вспомнить какие-то моменты или получить дополнительные знания.
Антон
Оценка ★★★★★
Основной результаты программы для меня — знания и навыки работы со Spark и понимание, где искать ответы.
Юлия
Оценка ★★★★☆
Мои ожидания от программы оправдались. Было много интересных практических заданий. Главное, я научилась работать с различными источниками данных.

ВХОДНЫЕ ТРЕБОВАНИЯ

Python, Java или Scala
Основной язык программы – Scala. Вы сможете без труда его освоить, если у вас уже есть опыт программирования на Java или Python. А если вы работали на этих языках со Spark, то это большое преимущество.
Базовые знания
Linux
В командной строке Linux вы будете проводить много времени, работая со своим кластером. И хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, а также заходить на удаленный сервер по ssh.
Знание SQL
Знание языка SQL может пригодится для написания приложений с использованием SparkSQL. Также он будет полезен, когда вы будете работать с внешними источниками данных – Cassandra, PostrgreSQL.
Hadoop
Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы познакомитесь с этими инструментами заранее и будете понимать, для чего они нужны.

ИНФРАСТРУКТУРА ПРОГРАММЫ

Кластер
Каждый участник получает доступ к облачному кластеру для решения лаб с доступом через SSH и JupyterHub
GitHub
Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы
Личный кабинет
В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата
Лекции прошлых потоков
Трехчасовые видео с тайм-метками, которые останутся у вас навсегда

ЧАСТЫЕ ВОПРОСЫ