17 ноября - 13 декабря 2022
APACHE SPARK
ADVANCED

Продвинутое использование Spark 2 для задач дата-инжиниринга

Занятия онлайн в зуме по вт и чт 19:00 — 22:00
17 ноября - 13 декабря 2022
APACHE SPARK
ADVANCED

Продвинутое использование Spark 2 для задач дата-инжиниринга

Занятия онлайн в зуме
по вт и чт 19:00 – 22:00
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

Наша интенсивная программа содержит занятия с преподавателями-практиками и реальные задачи, которые помогут вам овладеть новыми инструментами.
КОРОЛЬ МИРА
БОЛЬШИХ ДАННЫХ
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения.

Наша интенсивная программа содержит занятия с преподавателями-практиками и реальные задачи, которые помогут вам овладеть новыми инструментами.

ЧЕМУ ВЫ НАУЧИТЕСЬ

Dataframe API
Разработка коннекторов в Dataframe API с использованием Datasource v1 API
Spark Structured Streaming API
Разработка коннекторов в Spark Structured Streaming API с использованием Datasource v1 API
org.apache.spark.sql.Row
Работа с org.apache.spark.sql.Row
py4j в pyspark
Работа с py4j в pyspark
Scala UDF в pyspark
Scala UDF в pyspark
Scala UDF в pyspark
Управление параллелизмом задач
Для кого эта программа?
Программа разработана для дата-инженеров, имеющих практический опыт работы с Apache Spark и желающих изучить внутреннюю архитектуру проекта и получить опыт и знания, которые позволят ускорить обработку данных в существующих проектах.

ЧТО ВХОДИТ В ПРОГРАММУ

8 ЗАНЯТИЙ
В Zoom в прямом эфире два раза в неделю и видеозаписями в личном кабинете
4 ЛАБЫ
Каждую неделю вам нужно будет решать лабораторную работу – практическую задачу, максимально приближенную к реальным задачам дата-инженера

ЛАБОРАТОРНЫЕ РАБОТЫ

Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Лаба 1
Разработка Encoder JSON to Row
ЛАБА 2
Разработка коннектора для DataFrame API с использованием Datasource API v1
ЛАБА 3
Добавление поддержки Predicate Pushdown в коннектор
Лаба 4
Добавление поддержки Structured Streaming API в коннектор
СТОИМОСТЬ ПРОГРАММЫ
70 000 руб.
  • Для физических лиц возможна рассрочка.
  • Для корпоративных клиентов — специальные условия при регистрации групп из более чем 3 участников.
  • Для выпускников наших программ и их друзей предусмотрены скидки.

Оставляйте заявку или звоните +74951288675, чтобы узнать подробности!

ВХОДНЫЕ ТРЕБОВАНИЯ

Для учебы вам потребуется
Опыт построения ETL и стриминг пайплайнов с помощью Apache Spark 2.4
Базовые знания Python
Понимание архитектуры распределенных вычислений с использованием HDFS, YARN
Практический опыт разработки на Scala
Базовые навыки Linux
Знание основ TCP/IP

ЧАСТЫЕ ВОПРОСЫ

НАШИ ПРИНЦИПЫ ОБУЧЕНИЯ
Мы создаем все условия для того, чтобы максимально приблизить опыт участников к реальным условиям работы (Project Based Learning). Поэтому основу наших программ составляют лабы (лабораторные работы) – системные большие практические задания, которые максимально приближены к реальным задачам специалистов по работе с данными.

  • Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент, необходимый для решения задач, а не самоцель.
  • Возможность сразу же применять полученные знания в работе и своих проектах.

На пути будут встречаться сложности, которые вы преодолеете и откроете в себе новые качества, а также получите незабываемый эмоциональный опыт! Вы пройдете настоящий путь героя!
какова длительность программ
Наши программы длятся от 5 до 12 недель – они максимально интенсивны и полностью погружают в работу с данными.
в каком формате проходят программы
Основной формат наших программ – синхронные онлайн-занятия с преподавателями в Zoom, самостоятельное выполнение лаб и тестов вне занятий онлайн. Занятия 2 раза в неделю по 3 часа и возможность задать вопросы преподавателю «здесь и сейчас» и получить ответы.

В среднем, на прохождение программы нужно закладывать от 15 часов в неделю – на занятия и выполнение лаб.
КОМУ подойдут наши программы
Наши программы рассчитаны на специалистов среднего и высокого уровня в области работы с данными – разработчиков, дата-инженеров, аналитиков, дата-сайентистов и менеджеров.

В зависимости от программы, входные требования могут отличаться. Практически во всех программах требуются уверенные навыки программирования на Python/Scala/Java, знание SQL и Linux.
инфраструктура программ
Все презентации, jupyter-ноутбуки, лабы и мануалы мы выкладываем в закрытый репозиторий на GitHub. Для выполнения лаб всем участникам мы даем доступ к облачному кластеру. Проверка лаб проводится автоматически чекерами в личном кабинете – такой формат дает возможность быстро проверять лабы и в случае неуспеха внести правки и проверить снова. В каждой программе для участников также создаются чаты – удобное пространство для общения и обсуждения.
кто будет преподавать
Наши преподаватели – только действующие эксперты-практики по работе с данными из российских и международных компаний, которые могут объяснять сложные вещи простыми словами
роль координаторов
Для того, чтобы прохождение программы было максимально комфортным и интересным, во всех программах есть координаторы. Они отвечают на технические вопросы по лабам и помогают советами как «старшие товарищи» – координаторы сами проходили программы и знают о возможных сложностях и их преодолении на собственном опыте.
ЧЕМ НАША ПРОГРАММА ОТЛИЧАЕТСЯ ОТ ДРУГИХ ПРОГРАММ НА РЫНКЕ
  1. Наша программа не про использование стандартных инструментов анализа данных, а про работу именно с большими данными с использованием Apache Spark.
  2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
рассрочка и специальные условия
  • Для физических лиц возможна рассрочка
  • Для корпоративных клиентов – специальные условия при регистрации групп из более чем 3 участников
  • Для выпускников наших программ и их друзей предусмотрены скидки
  • Также есть промокоды, которые вы сможете найти в наших социальных сетях и у наших партнеров. Промокоды не суммируются с другими предложениями и скидками
НАШИ ПРИНЦИПЫ ОБУЧЕНИЯ
Мы создаем все условия для того, чтобы максимально приблизить опыт участников к реальным условиям работы (Project Based Learning). Поэтому основу наших программ составляют лабы (лабораторные работы) – системные большие практические задания, которые максимально приближены к реальным задачам специалистов по работе с данными.

  • Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент, необходимый для решения задач, а не самоцель.
  • Возможность сразу же применять полученные знания в работе и своих проектах.

На пути будут встречаться сложности, которые вы преодолеете и откроете в себе новые качества, а также получите незабываемый эмоциональный опыт! Вы пройдете настоящий путь героя!
какова длительность программ
Наши программы длятся от 5 до 12 недель – они максимально интенсивны и полностью погружают в работу с данными.
в каком формате проходят программы
Основной формат наших программ – синхронные онлайн-занятия с преподавателями в Zoom, самостоятельное выполнение лаб и тестов вне занятий онлайн. Занятия 2 раза в неделю по 3 часа и возможность задать вопросы преподавателю «здесь и сейчас» и получить ответы.

В среднем, на прохождение программы нужно закладывать от 15 часов в неделю – на занятия и выполнение лаб.
КОМУ подойдут наши программы
Наши программы рассчитаны на специалистов среднего и высокого уровня в области работы с данными – разработчиков, дата-инженеров, аналитиков, дата-сайентистов и менеджеров.

В зависимости от программы, входные требования могут отличаться. Практически во всех программах требуются уверенные навыки программирования на Python/Scala/Java, знание SQL и Linux.
инфраструктура программ
Все презентации, jupyter-ноутбуки, лабы и мануалы мы выкладываем в закрытый репозиторий на GitHub. Для выполнения лаб всем участникам мы даем доступ к облачному кластеру. Проверка лаб проводится автоматически чекерами в личном кабинете – такой формат дает возможность быстро проверять лабы и в случае неуспеха внести правки и проверить снова. В каждой программе для участников также создаются чаты – удобное пространство для общения и обсуждения.
кто будет преподавать
Наши преподаватели – только действующие эксперты-практики по работе с данными из российских и международных компаний, которые могут объяснять сложные вещи простыми словами
роль координаторов
Для того, чтобы прохождение программы было максимально комфортным и интересным, во всех программах есть координаторы. Они отвечают на технические вопросы по лабам и помогают советами как «старшие товарищи» – координаторы сами проходили программы и знают о возможных сложностях и их преодолении на собственном опыте.
ЧЕМ НАША ПРОГРАММА ОТЛИЧАЕТСЯ ОТ ДРУГИХ ПРОГРАММ НА РЫНКЕ
  1. Наша программа не про использование стандартных инструментов анализа данных, а про работу именно с большими данными с использованием Apache Spark.
  2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
рассрочка и специальные условия
  • Для физических лиц возможна рассрочка
  • Для корпоративных клиентов – специальные условия при регистрации групп из более чем 3 участников
  • Для выпускников наших программ и их друзей предусмотрены скидки
  • Также есть промокоды, которые вы сможете найти в наших социальных сетях и у наших партнеров. Промокоды не суммируются с другими предложениями и скидками
ПАРТНЕР ПО ИНФРАСТРУКТУРЕ
Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.
НУЖНА ПОМОЩЬ В ВЫБОРЕ ПРОГРАММЫ?
Оставьте ваши контакты — и мы вас проконсультируем и ответим на все вопросы
Отправляя данную форму, вы даете свое согласие на обработку персональных данных