Онлайн-программа «‎Apache Spark Advanced»‎ от Newprolab

9-Й ПОТОК: 12 НОЯБРЯ - 10 ДЕКАБРЯ 2024

APACHE SPARK 3 ADVANCED

9-Й ПОТОК: 12 НОЯБРЯ - 10 ДЕКАБРЯ 2024

APACHE SPARK 3 ADVANCED ▶️ видео-отзыв

◉ Работа датафреймов «под капотом» и как ускорить обработку данных в своих проектах
◉ Взаимодействие с внешними источниками, которые не поддерживаются Spark из коробки или для которых нет уже кем-то разработанных коннекторов
◉ Пользовательские функции — как писать быстро, какие подходы можно использовать, что можно из них выжать и какие есть паттерны их использования

8 занятий
2 раза в неделю

Занятия раз в неделю по
3 часа с 19:00 до 22:00 мск, проект из 4-х лаб и отработка навыков

Онлайн в зуме
и малая группа до 20 человек

Занятия с преподавателем, лайвкодинг, вопросы-ответы и поддержка в чате участников

Средняя оценка
★★★★★

На основе отзывов выпускников предыдущих 8-ми потоков. Всего программу прошли 173 человека

Dataframe API

Spark Structured Streaming API

org.apache.spark.sql.Row

py4j в pyspark

Scala UDF в pyspark

ВЫ НУЧИТЕСЬ

работать с внутренними структурами Spark 3
использовать py4j для взаимодействия со структурами Spark 3 из Python в JVM
писать хорошие высокопроизводительные Scala UDF
писать нативные UDF на internal row
работать с планировщиками запускать и синхронные действия на dataframe
выбирать оптимальные ресурсы для Spark 3 приложения
разрабатывать коннекторы к источникам с помощью static UPS и с помощью стримов

ВХОДНЫЕ ТРЕБОВАНИЯ

Опыт построения ETL и стриминг пайплайнов с помощью Spark
Базовые знания Python
Понимание архитектуры распределенных вычислений с использованием HDFS, YARN
Практический опыт разработки на Scala
Базовые навыки Linux
Знание основ TCP/IP
Понимание как работают распределенные базы данных
Опыт работы и использования библиотек Mongo

ПРАКТИКА

В этой программе есть четыре лабораторных работы, которые необходимо выполнить самостоятельно в нашей инфраструктуре. Лабы проверяются автоматическими чекерами и количество попыток неограниченно. Преподаватель и координатор будут отвечать на ваши вопросы и всегда помогут по техническим вопросам.

Лабы объединены в пайплайн и за 4 недели вам нужно будет разработать коннектор к гибридному хранилищу, который для хранения данных использует одновременно Mongo и файловую систему. Вы будете самостоятельно разрабатывать статическую часть этого коннектора для работы со Static Dataframe API, стримовую часть и малую часть и добавлять туда Predicate Pushdown фильтры. Лабы проверяется автоматически, количество попыток не ограничено.

ЦЕЛИ

Добавить механизм predicate pushdown в hybrid-json

ЗАДАЧИ

Вам необходимо:

реализовать механизм индексирования, аналогичному в parquet, при использовании которого для каждого файла для каждой колонки необходимо будет посчитать ее минимальное и максимальное значение и сохранить это в index_store.file_index в поле columnStats в следующем формате:

> use index_store switched to db index_store > db.file_index.findOne() { "_id" : ObjectId("619f54f0f93d4b9795eb4606"), "objectName" : "test01", "path" : "/tmp/foo.json/ca8220e2-bd77-4732-a837-9071854086a0.json", "commitMillis" : NumberLong("1637831920142"), "columnStats" : [ { "name" : "id2", "min" : 0, "max" : 38 }, { "name" : "id", "min" : 0, "max" : 19 } ] }

cтруктура поля columnStats - это массив словарей, в каждом словаре name - имя колонки, min - ее минимальное значение в файле, max - ее максимальное значение в файле
запись columnStats должна происходить после успешной записи файла, вместе с остальными полями документа в index_store.file_index
для упрощения задачи необходимо реализовать поддержку columnStats только для полей, имеющих тип IntegerType
реализовать механизм predicate pushdown, при котором будут читаться только те файлы, которые пройдут по columnnStats. Должны поддерживаться следующие фильтры
EqualTo ( == в DataFrame API)
GreaterThan ( > в DataFrame API)
GreaterThanOrEqual ( >= в DataFrame API)
LessThan ( < в DataFrame API)
LessThanOrEqual ( <= в DataFrame API)

Добавление поддержки Predicate Pushdown в коннектор

ЦЕЛИ

Добавить механизм predicate pushdown в hybrid-json

ЗАДАЧИ

Вам необходимо:

реализовать механизм индексирования, аналогичному в parquet, при использовании которого для каждого файла для каждой колонки необходимо будет посчитать ее минимальное и максимальное значение и сохранить это в index_store.file_index в поле columnStats в следующем формате:

> use index_store switched to db index_store > db.file_index.findOne() { "_id" : ObjectId("619f54f0f93d4b9795eb4606"), "objectName" : "test01", "path" : "/tmp/foo.json/ca8220e2-bd77-4732-a837-9071854086a0.json", "commitMillis" : NumberLong("1637831920142"), "columnStats" : [ { "name" : "id2", "min" : 0, "max" : 38 }, { "name" : "id", "min" : 0, "max" : 19 } ] }

cтруктура поля columnStats - это массив словарей, в каждом словаре name - имя колонки, min - ее минимальное значение в файле, max - ее максимальное значение в файле
запись columnStats должна происходить после успешной записи файла, вместе с остальными полями документа в index_store.file_index
для упрощения задачи необходимо реализовать поддержку columnStats только для полей, имеющих тип IntegerType
реализовать механизм predicate pushdown, при котором будут читаться только те файлы, которые пройдут по columnnStats. Должны поддерживаться следующие фильтры
EqualTo ( == в DataFrame API)
GreaterThan ( > в DataFrame API)
GreaterThanOrEqual ( >= в DataFrame API)
LessThan ( < в DataFrame API)
LessThanOrEqual ( <= в DataFrame API)

ИНФРАСТРУКТУРА ПРОГРАММЫ

GitHub

Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы

Личный кабинет

В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата

Чат для участников в Telegram

Общее пространство участников для обсуждения лаб и взаимодействия с координатором

ПРЕПОДАВАТЕЛЬ программы

Сергей Гришаев, Architect, Сбермаркет
Проведет 8 занятий в зуме и ответит на все ваши вопросы в чате

ПРЕПОДАВАТЕЛЬ ПРОГРАММЫ

Сергей Гришаев, Architect, Сбермаркет
Проведет 8 занятий в зуме и ответит на все ваши вопросы в чате

РАСПИСАНИЕ ЗАНЯТИЙ

CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ

Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из четырех в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга на продвинутом уровне.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.

CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ

Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из четырех в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга на продвинутом уровне.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.

СТОИМОСТЬ УЧАСТИЯ

8 живых занятий с экспертом из индустрии в зуме, реальный результат в конце, поддержка и обратная связь. Записи занятий и материалы остаются у вас навсегда.

79 000₽ / $790

ЗАПИСАТЬСЯ

Оставляйте заявку или звоните +74951288675, cчтобы узнать подробности.
Сейчас платить не нужно. Оплата только после общения с менеджером.
Можно оплатить иностранной картой.

СТОИМОСТЬ УЧАСТИЯ
79 000₽ / $790

4 недели и 8 живых занятий с экспертом из индустрии в зуме, реальный результат в конце, поддержка и обратная связь.

Записи занятий и материалы остаются у вас навсегда.

ЗАПИСАТЬСЯ

Оставляйте заявку или звоните +74951288675, чтобы узнать подробности. Сейчас платить не нужно. Оплата только после общения с менеджером. Можно оплатить иностранной картой.

ОТЗЫВЫ УЧАСТНИКОВ

Цель была поглубже изучить Spark и понять, как он внутри работает чтобы и код оптимальнее писать и чтобы потом внутрь можно было залезть, доделать, улучшить и какие-то модули дописать, чем мы и занимались на курсе.

Понравилось, что было два вектора: первое – это общие интересные вещи, антипаттерны, оптимизация UDF функций. Второй трек – что касается лаб, надо было написать свой коннектор со всеми оптимизациями.

То, что изучали на программе, может пригодиться каждый день в работе, когда пишешь запросы и когда пишешь код. Лабораторные помогли понять как Spark внутри работает. Также хороший опыт со Scala – углубленные серьезные вещи, все было полезно.

Разработка коннектора – это потенциал на будущее и понимание как оно работает.

Преподаватель Сергей Гришаев очень компетентный, в тоже время хорошо владеет русским языком, очень хорошо объясняет, отвечает на все вопросы, даже глупые. Сложно что-то добавить, просто очень хорошо.

Программа однозначно понравилась. На вопросы не дают прямого ответа, чтобы ты сам мог покопаться, преподаватель дает вектор куда думать, когда что-то не получалось.

Кто будет учиться на программе – рекомендую не откладывать решение лаб, лучше сразу сесть и разбираться после лекции, много подводных камней и может занять много времени. И не пропускать лекции, слушать и задавать вопросы.

Станислав Никитин
Дата-инженер в Касперский

Оценка ★★★★★

Пришел на Spark Advanced как на продолжение программы Apache Spark, чтобы развивать приобретенные навыки. Apache Spark зашел на Ура и очень понравился.

В результате этой программы получил знания, драйв, проверил себя на прочность. Мне понравился занимательный материал, отличное проведение лекций и очень крутые задачки и чекер.

В целом, это сложная и интересная программа. Может быть, цель создания своего коннектора и не возникнет на работе, но организация гибридного программного модуля, выполняющего некие другие функции, на Spark+Scala нужно будет точно. Тут полет фантазии -)

Материала на программе достаточно и Сергей Гришаев – отличный преподаватель. На все вопросы может ответить, всегда приходит на помощь и разъясняет трудные моменты. Другой момент, что нужно внимательно слушать.

Я в целом доволен вашей работой и подходами, задачами, знаниями и преподавателями. Огромное спасибо. Вы понимаете, и учащимся тоже надо понять, что освоение материалов именно должно быть интенсивным. Без полного погружения все это не откладывается на подкорке.

Иван Андреев
Главный разработчик Big Data

Оценка ★★★★★

Достиг целей, которые ставил на программу на все 100%! Ранее проходил другие программы Newprolab и решил пройти новую для себя.

Узнал, как можно разрабатывать свои фильтры и коннекторы, больше узнал о том, как работает Spark "под капотом" и в целом поданная информация была полезна, материала по темам было достаточно. То, что все 4 задачи выложили сразу – тоже было плюсом.

Преподаватель Сергей Гришаев хорошо в целом ведет занятия, очень нравится его активность "вне занятий" – помощь в вопросах.

Тем, кто работает со Spark, программа даст глубокие знания и я его могу порекомендовать. Если человек просто работает на поверхности со спарком, то возможно столь глубокие знания будут излишни.

Николай Тимаков
Дата-инженер

Оценка ★★★★★

До этого проходил начальную программу по Спарку, очень понравилось, захотел углубиться и взять ещё одну программу

Получил углублённое знание о принципах работы Спарка и его апи. Понравился детальный разбор всех вопросов и подача материала от преподавателя.

Понравился детальный разбор всех вопросов и подход преподавателя к обучению. Объема материала по темам было достаточно, а пройти программу успешно мне помешала загрузка на работе.

Программу могу рекомендовать, всё было на высшем уровне, на любой мой вопрос был дан ответ в кратчайшие сроки. При возникновении потребности в обучении обязательно вернусь в Newprolab.

Иван Костров
Дата-инженер

Оценка ★★★★★

В результате программы приобрел более глубокое понимание работы спарка. Долго копался с монгой и долго копался с итератором.) Всем занятиям ставлю 5 из 5 баллов. Планирую применять полученные знания в работе.

Максим Башаров

Оценка ★★★★★

Ожидания от программы оправдались. Удалось узнать больше про внутренние структуры спарка, научиться с ними работать. Понял, как писать свои коннекторы к источникам данных, использовать scala udf в pyspark. Буду использовать знания в рабочих проектах. Уже порекомендовал ваши программы своим знакомым в разных компаниях. Спасибо!

Михаил Килинский

Оценка ★★★★★

Высокое качество материала, идеальный баланс между теорией и практическими примерами. Порадовали оперативные ответы в Телеграм. Главный результат обучения – понимание некоторых нюансов по Cпарку, о которых ранее не задумывался, так как не приходилось сталкиваться на практике. На текущей работе лично мне не требуется столь глубокий уровень Спарка, так как пайплайны достаточно простые и не нагруженные. Для меня сейчас – это скорее теоретические знания, к которым можно будет обратиться в будущем. Лабы были сложные.

Данил Кусакин

Оценка ★★★★★

Это первая программа, которая захватывают разработку коннекторов, можно сказать что больше таких программ наверное нигде нет. Для меня такой точно первая.

Я пытался до этого разбираться с API коннекторов, но это довольно-таки сложная штука. Сам я бы еще очень долго с ними разбирался. Сейчас все гораздо проще стало. Я стал лучше понимать внутреннюю логику Spark, как он работает и вообще про Spark узнал некоторые вещи, которые раньше не знал. Я и раньше не проходил некоторые собеседования, а теперь точно любые пройду. Большое спасибо!

Антон Юдин

Оценка ★★★★★

Мне понравилась программа, мне нравятся челенджи, мне нравится делать, когда непонятно что делать. Рамки были узкие и времени мало. Задачи очень интересные, очень понравилось ковыряться. У меня это уже третяя программа от Newprolab – уже знаешь куда идешь!

Олег Андреев

Оценка ★★★★★