Онлайн-программа Apache Spark для дата-инженеров от Newprolab

ЗАПИСАТЬСЯ

8-й поток: ОСЕНЬ 2024 или пройти без потока в любое время

APACHE SPARK и SCALA

ДЛЯ ДАТА-ИНЖИНИРИНГА

Подготовка витрин данных
Создание real-time приложений
Scala API
ВИДЕО О ПРОГРАММЕ

19 марта -
23 апреля 2023

5 недель, 12 занятий в зуме по 3 часа с 19:00 до 22:00 мск, облачный кластер для выполнения лаб

обучение Онлайн
в зуме и с потоком

Занятия с преподавателем, лайвкодинг, вопросы-ответы и поддержка координатора, общий чат с участниками потока

Средняя оценка

★★★★★

На основе отзывов выпускников предыдущих 5-ти потоков.
Всего программу прошли 124 человека

ЗАПИСАТЬСЯ

КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ

Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ

Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

ЧЕМУ ВЫ НАУЧИТЕСЬ

SCALA API

Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.

ВИТРИНЫ ДАННЫХ

Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.

REAL-TIME

Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.

ДЛЯ КОГО

ДАТА-ИНЖЕНЕРЫ
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на этой программе с заданиями, которые позволят вам отработать новые навыки на практике.

РАЗРАБОТЧИКИ
Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.

ДАТА-САЙЕНТИСТЫ
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.

Новости мира данных, уникальные
скидки на потоки, ламповое комьюнити

Канал в Telegram

ЧТО ВХОДИТ В ПРОГРАММУ

12 ЗАНЯТИЙ

В Zoom в прямом эфире с преподавателями. На занятиях будет подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.

5 ИНСТРУМЕНТОВ

Помимо самого Apache Spark вы поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.

6 ЛАБ

Каждую неделю вам нужно будет решать лабораторную работу. Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.

ПРАКТИКА

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни

Лаба 0: подготовка
НАСТРОЙКА
ОКРУЖЕНИЯ В INTELLIJ IDEA

Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.

Лаба 1
ТОП-150 РЕЛЕВАНТНЫХ URL С ПОМОЩЬЮ DATAFRAMES

В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.

Лаба 2
СОЗДАНИЕ
ВИТРИНЫ
ДАННЫХ

Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.

Лаба 3 и суперачивка
СОХРАНЕНИЕ ЛОГОВ
ИЗ KAFKA ПРИ ПОМОЩИ SPARK

Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.

Лаба 4
ПОДГОТОВКА
МАТРИЦЫ
USERS X ITEMS

Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.

Лаба 5
ПОДГОТОВКА
МАТРИЦЫ ПРИЗНАКОВ
ПО ЛОГАМ

Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.

ПРЕПОДАВАТЕЛИ

Учитесь у экспертов-практиков, которые могут донести сложный материал простым языком

ЕГОР МАТЕШУК
Технический директор, ГПМ Дата
НИКОЛАЙ МАРКОВ
Senior Principal Architect, Aligned Research Group
СЕРГЕЙ ГРИШАЕВ
Architect, Сбермаркет

CЕРТИФИКАТ
НА АНГЛИЙСКОМ ЯЗЫКЕ

Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.

CЕРТИФИКАТ
ОБ УСПЕШНОМ
ПРОХОЖДЕНИИ

СТОИМОСТЬ
УЧАСТИЯ В ПРОГРАММЕ

5 недель и 12 живых занятий с экспертами из индустрии в зуме, реальный результат в конце, поддержка и обратная связь. Записи занятий и материалы остаются у вас навсегда.

79 000 руб

ЗАПИСАТЬСЯ НА ВЕСЕННИЙ ПОТОК

ПРОЙТИ БЕЗ ПОТОКА В ЛЮБОЕ ВРЕМЯ

Оставляйте заявку или звоните +74951288675, чтобы узнать подробности.
Сейчас платить не нужно. Оплата только после общения с менеджером.
Можно оплатить иностранной картой.

ОТЗЫВЫ ВЫПУСКНИКОВ

Андрей

Оценка ★★★★★

Прекрасная программа с отменной организацией процесса. Здорово способствует пониманию «подкапотного пространства» спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе.

Евгений

Оценка ★★★★☆

Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе.

Александр

Оценка ★★★★★

Одна из лучших пройденных мной программ, прежде всего, по полноте и глубине представленного материала. Много практических задач, много примеров для понимание теории, подробное объяснение тем.

ВХОДНЫЕ ТРЕБОВАНИЯ

Python, Java или Scala

Основной язык программы – Scala. Вы сможете без труда его освоить, если у вас уже есть опыт программирования на Java или Python. А если вы работали на этих языках со Spark, то это большое преимущество.

Базовые знания
Linux

В командной строке Linux вы будете проводить много времени, работая со своим кластером. И хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, а также заходить на удаленный сервер по ssh.

Знание SQL

Знание языка SQL может пригодится для написания приложений с использованием SparkSQL. Также он будет полезен, когда вы будете работать с внешними источниками данных – Cassandra, PostrgreSQL.

Hadoop

Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы познакомитесь с этими инструментами заранее и будете понимать, для чего они нужны.

ИНФРАСТРУКТУРА ПРОГРАММЫ

Кластер

Каждый участник получает доступ к облачному кластеру для решения лаб с доступом через SSH и JupyterHub

GitHub

Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы

Личный кабинет

В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата

Живые занятия в зуме

Трехчасовые занятия с преподавателями будут доступны в записи и останутся у вас навсегда

ПАРТНЕР ПО ИНФРАСТРУКТУРЕ

Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.