7-й поток: 14 мая - 12 июня 2024

ЛАБОРАТОРИЯ

APACHE SPARK ADVANCED

▶️ видео-отзыв

7-й поток: 14 мая - 12 июня 2024

ЛАБОРАТОРИЯ

APACHE SPARK ADVANCED ▶️ видео-отзыв

Hardcore-программа
Поможет разобраться в работе датафреймов «под капотом» и покажет, как ускорить обработку данных в своих проектах
Первый вектор обучения
Взаимодействие с внешними источниками, которые не поддерживаются Spark из коробки или для которых нет уже кем-то разработанных коннекторов

Второй вектор обучения

Пользовательские функции — как писать быстро, какие подходы можно использовать, что можно из них выжать и какие есть паттерны их использования
4 недели
8 занятий
Занятия два раза в неделю по
3 часа с 19:00 до 22:00 мск, проект из 4-х лаб и отработка навыков
Онлайн в зуме
и малая группа до 20 человек
Занятия с преподавателем, лайвкодинг, вопросы-ответы и поддержка координатора
Средняя оценка
★★★★★
На основе отзывов выпускников предыдущих 5-ти потоков. Всего программу прошли 119 человек
Dataframe API
Spark Structured Streaming API
org.apache.spark.sql.Row
py4j в pyspark
Scala UDF в pyspark

ВЫ

НУЧИТЕСЬ

  • работать с внутренними структурами Spark 2
  • использовать py4j для взаимодействия со структурами Spark 2 из Python в JVM
  • писать хорошие высокопроизводительные Scala UDF
  • писать нативные UDF на internal row
  • работать с планировщиками запускать и синхронные действия на dataframe
  • выбирать оптимальные ресурсы для Spark 2 приложения
  • разрабатывать коннекторы к источникам с помощью static UPS и с помощью стримов

ВХОДНЫЕ ТРЕБОВАНИЯ

  • Опыт построения ETL и стриминг пайплайнов с помощью Spark 2.4
  • Базовые знания Python
  • Понимание архитектуры распределенных вычислений с использованием HDFS, YARN
  • Практический опыт разработки на Scala
  • Базовые навыки Linux
  • Знание основ TCP/IP
  • Понимание как работают распределенные базы данных
  • Опыт работы и использования библиотек Mongo

ОСОБЕННОСТИ ПРОГРАММЫ

  • Интенсивное обучение и полное погружение в тему
  • Строгие дедлайны
  • 4 лабы, объединенные в пайплайн
  • Детальный разбор всех вопросов
  • Облачная рабочая инфраструктура
  • Автоматическая проверка лаб чекером, количество попыток неограничено

ПРАКТИКА

В этой программе есть четыре лабораторных работы, которые необходимо выполнить самостоятельно в нашей инфраструктуре. Лабы проверяются автоматическими чекерами и количество попыток неограниченно. Преподаватель и координатор будут отвечать на ваши вопросы и всегда помогут по техническим вопросам.

Лабы объединены в пайплайн и за 4 недели вам нужно будет разработать коннектор к гибридному хранилищу, который для хранения данных использует одновременно Mongo и файловую систему. Вы будете самостоятельно разрабатывать статическую часть этого коннектора для работы со Static Dataframe API, стримовую часть и малую часть и добавлять туда Predicate Pushdown фильтры. Лабы проверяется автоматически, количество попыток не ограничено.

ИНФРАСТРУКТУРА ПРОГРАММЫ

Кластер
Каждый участник получает доступ к облачному кластеру для решения лаб с доступом через SSH и JupyterHub
GitHub
Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы
Личный кабинет
В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата
Чат для участников в Telegram
Общее пространство участников для обсуждения лаб и взаимодействия с координатором
ПРЕПОДАВАТЕЛЬ программы
Сергей Гришаев, Architect, Сбермаркет
Проведет 8 занятий в зуме и ответит на все ваши вопросы
координатор программы
Координатор этого потока уточняется
Поможет в выполнении лаб и будет на связи в течение всей программы
ПРЕПОДАВАТЕЛЬ ПРОГРАММЫ
Сергей Гришаев, Architect, Сбермаркет
Проведет 8 занятий в зуме и ответит на все ваши вопросы
ПОДРОБНЕЕ О ЛАБОРАТОРИИ
Андрей Титов, автор программы и преподаватель первых трех потоков, рассказывает о программе: какие задачи вы будете решать во время обучения, как происходит обучение, как устроена инфраструктура и практика. Запись перед стартом первого потока (ноябрь 2021 года)
ИНТЕРВЬЮ С СЕРГЕЕМ ГРИШАЕВЫМ
В этом видео мы можете ближе познакомиться с преподавателем программы Spark Advanced, узнать о его опыте и рекомендациях по прохождению программы.
ИНТЕРВЬЮ С ПРЕПОДАВАТЕЛЕМ
СЕРГЕЕМ ГРИШАЕВЫМ
В этом видео мы можете ближе познакомиться с преподавателем программы Spark Advanced, узнать о его опыте и рекомендациях по прохождению программы.


ПОДРОБНЕЕ О ЛАБОРАТОРИИ
Андрей Титов, автор программы и преподаватель первых трех потоков, рассказывает о программе: какие задачи вы будете решать во время обучения, как происходит обучение, как устроена инфраструктура и практика. Запись перед стартом первого потока (ноябрь 2021 года)

РАСПИСАНИЕ ЗАНЯТИЙ

CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из четырех в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга на продвинутом уровне.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из четырех в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга на продвинутом уровне.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
СТОИМОСТЬ
УЧАСТИЯ В ЛАБОРАТОРИИ
4 недели и 8 живых занятий с экспертом из индустрии в зуме, реальный результат в конце, поддержка и обратная связь. Записи занятий и материалы остаются у вас навсегда.
79 000 руб
Оставляйте заявку или звоните +74951288675, чтобы узнать подробности.
Сейчас платить не нужно. Оплата только после общения с менеджером.
Можно оплатить иностранной картой.
СТОИМОСТЬ УЧАСТИЯ

79 000 руб
4 недели и 8 живых занятий с экспертом из индустрии в зуме, реальный результат в конце, поддержка и обратная связь.

Записи занятий и материалы остаются у вас навсегда.

Оставляйте заявку или звоните +74951288675, чтобы узнать подробности. Сейчас платить не нужно. Оплата только после общения с менеджером. Можно оплатить иностранной картой.

ОТЗЫВЫ УЧАСТНИКОВ

Станислав Никитин
Дата-инженер в Касперский
Оценка ★★★★★
Цель была поглубже изучить Spark и понять, как он внутри работает чтобы и код оптимальнее писать и чтобы потом внутрь можно было залезть, доделать, улучшить и какие-то модули дописать, чем мы и занимались на курсе.

Понравилось, что было два вектора: первое – это общие интересные вещи, антипаттерны, оптимизация UDF функций. Второй трек – что касается лаб, надо было написать свой коннектор со всеми оптимизациями.

То, что изучали на программе, может пригодиться каждый день в работе, когда пишешь запросы и когда пишешь код. Лабораторные помогли понять как Spark внутри работает. Также хороший опыт со Scala – углубленные серьезные вещи, все было полезно.

Разработка коннектора – это потенциал на будущее и понимание как оно работает.


Преподаватель Сергей Гришаев очень компетентный, в тоже время хорошо владеет русским языком, очень хорошо объясняет, отвечает на все вопросы, даже глупые. Сложно что-то добавить, просто очень хорошо.

Программа однозначно понравилась. На вопросы не дают прямого ответа, чтобы ты сам мог покопаться, преподаватель дает вектор куда думать, когда что-то не получалось.

Кто будет учиться на программе – рекомендую не откладывать решение лаб, лучше сразу сесть и разбираться после лекции, много подводных камней и может занять много времени. И не пропускать лекции, слушать и задавать вопросы.
Иван Андреев
Главный разработчик Big Data
Оценка ★★★★★
Пришел на Spark Advanced как на продолжение программы Apache Spark, чтобы развивать приобретенные навыки. Apache Spark зашел на Ура и очень понравился.

В результате этой программы получил знания, драйв, проверил себя на прочность. Мне понравился занимательный материал, отличное проведение лекций и очень крутые задачки и чекер.

В целом, это сложная и интересная программа. Может быть, цель создания своего коннектора и не возникнет на работе, но организация гибридного программного модуля, выполняющего некие другие функции, на Spark+Scala нужно будет точно. Тут полет фантазии -)

Материала на программе достаточно и Сергей Гришаев – отличный преподаватель. На все вопросы может ответить, всегда приходит на помощь и разъясняет трудные моменты. Другой момент, что нужно внимательно слушать.

Я в целом доволен вашей работой и подходами, задачами, знаниями и преподавателями. Огромное спасибо. Вы понимаете, и учащимся тоже надо понять, что освоение материалов именно должно быть интенсивным. Без полного погружения все это не откладывается на подкорке.
Николай Тимаков
Дата-инженер
Оценка ★★★★★
Достиг целей, которые ставил на программу на все 100%! Ранее проходил другие программы Newprolab и решил пройти новую для себя.

Узнал, как можно разрабатывать свои фильтры и коннекторы, больше узнал о том, как работает Spark "под капотом" и в целом поданная информация была полезна, материала по темам было достаточно. То, что все 4 задачи выложили сразу – тоже было плюсом.

Преподаватель Сергей Гришаев хорошо в целом ведет занятия, очень нравится его активность "вне занятий" – помощь в вопросах.

Тем, кто работает со Spark, программа даст глубокие знания и я его могу порекомендовать. Если человек просто работает на поверхности со спарком, то возможно столь глубокие знания будут излишни.
Иван Костров
Дата-инженер
Оценка ★★★★★
До этого проходил начальную программу по Спарку, очень понравилось, захотел углубиться и взять ещё одну программу

Получил углублённое знание о принципах работы Спарка и его апи. Понравился детальный разбор всех вопросов и подача материала от преподавателя.

Понравился детальный разбор всех вопросов и подход преподавателя к обучению. Объема материала по темам было достаточно, а пройти программу успешно мне помешала загрузка на работе.

Программу могу рекомендовать, всё было на высшем уровне, на любой мой вопрос был дан ответ в кратчайшие сроки. При возникновении потребности в обучении обязательно вернусь в Newprolab.
Роман Друзык
Оценка ★★★★☆
Понял, как копаться в кишках спарка и переиспользовать классы. Буду применять некоторые фишки в рабочих процессах. К сожалению, было сложно найти время для лабораторных работ.
Максим Башаров
Оценка ★★★★★
В результате программы приобрел более глубокое понимание работы спарка. Долго копался с монгой и долго копался с итератором.) Всем занятиям ставлю 5 из 5 баллов. Планирую применять полученные знания в работе.
Михаил Килинский
Оценка ★★★★★
Ожидания от программы оправдались. Удалось узнать больше про внутренние структуры спарка, научиться с ними работать. Понял, как писать свои коннекторы к источникам данных, использовать scala udf в pyspark. Буду использовать знания в рабочих проектах. Уже порекомендовал ваши программы своим знакомым в разных компаниях. Спасибо!
Данил Кусакин
Оценка ★★★★★
Высокое качество материала, идеальный баланс между теорией и практическими примерами. Порадовали оперативные ответы в Телеграм. Главный результат обучения – понимание некоторых нюансов по Cпарку, о которых ранее не задумывался, так как не приходилось сталкиваться на практике. На текущей работе лично мне не требуется столь глубокий уровень Спарка, так как пайплайны достаточно простые и не нагруженные. Для меня сейчас – это скорее теоретические знания, к которым можно будет обратиться в будущем. Лабы были сложные.
Антон Юдин
Оценка ★★★★★
Это первая программа, которая захватывают разработку коннекторов, можно сказать что больше таких программ наверное нигде нет. Для меня такой точно первая.

Я пытался до этого разбираться с API коннекторов, но это довольно-таки сложная штука. Сам я бы еще очень долго с ними разбирался. Сейчас все гораздо проще стало. Я стал лучше понимать внутреннюю логику Spark, как он работает и вообще про Spark узнал некоторые вещи, которые раньше не знал. Я и раньше не проходил некоторые собеседования, а теперь точно любые пройду. Большое спасибо!
Олег Андреев
Оценка ★★★★★
Мне понравилась программа, мне нравятся челенджи, мне нравится делать, когда непонятно что делать. Рамки были узкие и времени мало. Задачи очень интересные, очень понравилось ковыряться. У меня это уже третяя программа от Newprolab – уже знаешь куда идешь!

ЧАСТЫЕ ВОПРОСЫ

ПАРТНЕР ПО ИНФРАСТРУКТУРЕ
Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.