БЕЗ ГРУППЫ: можно начать в любое время

APACHE SPARK и Scala

для дата-инжиниринга

подготовка витрин данных
создание real-time приложений
Acala API
Видео о программе
Видео-лекции
по 3 часа
с тайм-метками
Можно пройти в своем темпе в любое время в течение 2-х месяцев. Материалы программы останутся у вас навсегда.
2 месяца практики в рабочей инфраструктуре
и помощь координатора
10 тестов и 6 лаб для отработки новых навыков и знаний, которые сможете сразу применять в работе.

Проверка знаний

и 2 месяца помощи от эксперта из индустрии

На связи два раза в неделю с вами будет координатор, который поможет разобраться с лабами и пройти программу успешно.
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

ЧЕМУ ВЫ НАУЧИТЕСЬ

SCALA API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
ВИТРИНЫ ДАННЫХ
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.
REAL-TIME
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
ДЛЯ КОГО
ДАТА-ИНЖЕНЕРЫ
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на этой программе с заданиями, которые позволят вам отработать новые навыки на практике.

РАЗРАБОТЧИКИ
Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.

ДАТА-САЙЕНТИСТЫ
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.


ЧТО ВХОДИТ В ПРОГРАММУ

11 ЗАНЯТИЙ
Трехчасовые записи занятий прошлых потоков с тайм-метками, где подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
5 ИНСТРУМЕНТОВ
Помимо самого Apache Spark вы поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
6 ЛАБ
Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.

ПРАКТИКА

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Лаба 0: подготовка
НАСТРОЙКА
ОКРУЖЕНИЯ В INTELLIJ IDEA
Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
Лаба 1
ТОП-150 РЕЛЕВАНТНЫХ URL С ПОМОЩЬЮ DATAFRAMES
В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
Лаба 2
СОЗДАНИЕ
ВИТРИНЫ ДАННЫХ
Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
Лаба 3 и суперачивка
СОХРАНЕНИЕ ЛОГОВ
ИЗ KAFKA ПРИ ПОМОЩИ SPARK
Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
Лаба 4
ПОДГОТОВКА
МАТРИЦЫ USERS X ITEMS
Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
Лаба 5
ПОДГОТОВКА МАТРИЦЫ ПРИЗНАКОВ ПО ЛОГАМ
Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.

ПРЕПОДАВАТЕЛИ

Учитесь у экспертов-практиков, которые могут донести сложный материал простым языком
  • ЕГОР МАТЕШУК
    Технический директор, ГПМ Дата
  • СЕРГЕЙ ГРИШАЕВ
    Architect, Купер (Сбермаркет)
CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
СТОИМОСТЬ УЧАСТИЯ
11 видеолекций и 2 месяца на выполнение лаб, помощь координатора, реальный результат.
Все материалы остаются у вас навсегда.
59 000₽ | $500
Нужно обучить сотрудников? Проведем поток программы специально для вас (от 15 человек)
Чтобы оплатить в долларах $ иностранной картой, напишите нам в Телеграм

ОТЗЫВЫ ВЫПУСКНИКОВ

  • Прекрасная программа с отменной организацией процесса. Здорово способствует пониманию «подкапотного пространства» спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе.
    Андрей
    Оценка ★★★★★
  • Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе.
    Евгений
    Оценка ★★★★☆
  • Одна из лучших пройденных мной программ, прежде всего, по полноте и глубине представленного материала. Много практических задач, много примеров для понимание теории, подробное объяснение тем.
    Александр
    Оценка ★★★★★
  • Понравилось, что преподаватели компетентны. Программа хороша для тех, кто уже работает со Spark и хочет вспомнить какие-то моменты или получить дополнительные знания.
    Григорий
    Оценка ★★★★☆
  • Основной результаты программы для меня — знания и навыки работы со Spark и понимание, где искать ответы.
    Антон
    Оценка ★★★★★
  • Мои ожидания от программы оправдались. Было много интересных практических заданий. Главное, я научилась работать с различными источниками данных.
    Юлия
    Оценка ★★★★☆

ВХОДНЫЕ ТРЕБОВАНИЯ

Python, Java или Scala
Основной язык программы – Scala. Вы сможете без труда его освоить, если у вас уже есть опыт программирования на Java или Python. А если вы работали на этих языках со Spark, то это большое преимущество.
Базовые знания Linux
В командной строке Linux вы будете проводить много времени, работая со своим кластером. И хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, а также заходить на удаленный сервер по ssh.
Знание SQL
Знание языка SQL может пригодится для написания приложений с использованием SparkSQL. Также он будет полезен, когда вы будете работать с внешними источниками данных – Cassandra, PostrgreSQL.
Hadoop
Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы познакомитесь с этими инструментами заранее и будете понимать, для чего они нужны.

ИНФРАСТРУКТУРА ПРОГРАММЫ

Кластер
Каждый участник получает доступ к облачному кластеру для решения лаб с доступом через SSH и JupyterHub
GitHub
Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы
Личный кабинет
В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата

ЧАСТЫЕ ВОПРОСЫ