Можно пройти в любое время
APACHE SPARK
И SCALA

ДЛЯ ДАТА ИНЖИНИРИНГА

Видеозаписи занятий, тесты и лабы
Помощь координатора

Материалы программы останутся у вас навсегда
Можно пройти в любое время
APACHE SPARK
И SCALA

ДЛЯ ДАТА ИНЖИНИРИНГА
Видеозаписи занятий, тесты и лабы
Помощь координатора

Материалы программы останутся у вас навсегда
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

Наша интенсивная программа содержит занятия с преподавателями-практиками и реальные задачи, которые помогут вам овладеть новыми инструментами.
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

Наша интенсивная программа содержит занятия с преподавателями-практиками и реальные задачи, которые помогут вам овладеть новыми инструментами.

ЧЕМУ ВЫ НАУЧИТЕСЬ

  • SCALA API
    Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
  • ВИТРИНЫ ДАННЫХ
    Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.
  • REAL-TIME
    Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
ДЛЯ КОГО
ЭТА ПРОГРАММА
ДАТА-ИНЖЕНЕРЫ
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на нашем интенсивном курсе с заданиями, которые позволят вам отработать новые навыки на практике.

РАЗРАБОТЧИКИ
Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.

ДАТА-САЙЕНТИСТЫ
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.


ЧТО ВХОДИТ В ПРОГРАММУ

  • 11 ВИДЕО
    3-х часовые записи занятий прошлых потоков с тайм-метками, где подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
  • 5 ИНСТРУМЕНТОВ
    Помимо самого Apache Spark вы еще поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
  • 5 ЛАБ
    Вам предстоит выполнить ряд задач с реальными данными, используя облачный кластер. Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.

ЛАБОРАТОРНЫЕ РАБОТЫ

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
  • Лаба 0: подготовка
    НАСТРОЙКА ОКРУЖЕНИЯ В INTELLIJ IDEA
    Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
  • Лаба 1
    ТОП-150 РЕЛЕВАНТНЫХ URL С ПОМОЩЬЮ DATAFRAMES
    В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
  • Лаба 2
    СОЗДАНИЕ
    ВИТРИНЫ
    ДАННЫХ
    Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
  • Лаба 3 и суперачивка
    СОХРАНЕНИЕ ЛОГОВ
    ИЗ KAFKA ПРИ ПОМОЩИ SPARK
    Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
  • Лаба 4
    ПОДГОТОВКА
    МАТРИЦЫ
    USERS X ITEMS
    Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
  • Лаба 5
    ПОДГОТОВКА МАТРИЦЫ ПРИЗНАКОВ ПО ЛОГАМ
    Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.

ПРЕПОДАВАТЕЛИ

Вы получаете доступ к видеозаписям занятий потока программы Spark Scala для дата-инжиниринга,
который прошел в феврале-марте 2022 года, и преподавателями тогда выступили:
  • ЕГОР МАТЕШУК
    CDO, Qvant
  • АНДРЕЙ ТИТОВ
    Senior Spark Engineer
CЕРТИФИКАТ
ОБ УСПЕШНОМ ПРОХОЖДЕНИИ

Вы сможете его добавить в свое резюме и в LinkedIn

CЕРТИФИКАТ
ОБ УСПЕШНОМ
ПРОХОЖДЕНИИ

СТОИМОСТЬ УЧАСТИЯ
69 000 руб.
Видеозаписи занятий прошлого потока (весна 2022 года), тесты, лабы и поддержка координатора. Можно пройти в любое время в своем темпе в течение 2 месяцев после начала.
  • Для физических лиц возможна рассрочка.
  • Для корпоративных клиентов — специальные условия при регистрации групп из более чем 3 участников.
  • Для выпускников наших программ и их друзей предусмотрены скидки.

Оставляйте заявку или звоните +74951288675, чтобы узнать подробности!

ОТЗЫВЫ УЧАСТНИКОВ

  • Андрей

    Прекрасный курс с отменной организацией процесса. Здорово способствует пониманию "подкапотного пространства" спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе
  • Евгений

    Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе.
  • Александр

    Один из лучших пройденных мной курсов, прежде всего, по полноте и глубине представленного материала. Много практических задач, много примеров для понимание теории, подробное объяснение тем.
  • Григорий

    Понравилось, что преподаватели компетентны. Курс хорош для тех, кто уже работает со Spark и хочет вспомнить какие-то моменты или получить дополнительные знания.
  • Антон

    Основной результаты программы для меня — знания и навыки работы со Spark и понимание, где искать ответы.
  • Алимар

    Самой полезной для меня была работа с Spark Structure Streaming. Планирую развивать фреймворк для стриминга в нашей команде и оптимизации спарк джобов.
  • Юлия

    Мои ожидания от программы оправдались. Было много интересных практических заданий. Главное, я научилась работать с различными источниками данных.
  • Денис

    Для меня курс оказался сложным и я не ожидал, что лабы не будут напрямую связаны с занятиями. Но это и стало тем, что понравилось больше всего, так как в реальных задачах никто не будет разжевывать что и как делать и многие вещи придется гуглить самому.
  • Вадим

    Преподаватели хорошо отвечают на вопросы, что очень ценно! И хочется отметить работу координатора – всегда получал ответы на свои вопросы по лабам. Но много времени потратил на поиск ошибок и почему чекеры не засчитывали лабы сразу. Получилось прокачать навык!

ВХОДНЫЕ ТРЕБОВАНИЯ

  • Умение программировать на Python, Java, Scala
    Основной язык программы – Scala. Вы сможете без труда его освоить, если у вас уже есть опыт программирования на Java или Python. А если вы работали на этих языках со Spark, то это большое преимущество.
  • Базовые знания Linux
    В командной строке Linux вы будете проводить много времени, работая со своим кластером. И хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, а также заходить на удаленный сервер по ssh.
  • Знание SQL
    Знание языка SQL может пригодится для написания приложений с использованием SparkSQL. Также он будет полезен, когда вы будете работать с внешними источниками данных – Cassandra, PostrgreSQL.
  • Hadoop
    Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы познакомитесь с этими инструментами заранее и будете понимать, для чего они нужны.

ИНФРАСТРУКТУРА ПРОГРАММЫ

Кластер
Каждый участник получает доступ к облачному кластеру для решения лаб с доступом через SSH и JupyterHub
GitHub
Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы
Личный кабинет
В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата
Онлайн-записи занятий прошлых потоков
Трехчасовые видео с тайм-метками, которые останутся у вас навсегда
ПАРТНЕР ПО ИНФРАСТРУКТУРЕ
Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.