Продвинутое использование Spark 2 для задач дата-инжиниринга

Расписание занятий:
вт, чт 19:00 – 22:00

Место проведения:
Онлайн-формат в Zoom
(предварительно) 5 - 27 апреля 2022

Apache Spark Advanced 2.0

Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Close
Apache Spark стал стандартом для распределенной обработки больших данных
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения. Наш интенсивный курс содержит занятия с преподавателями-практиками и практические работы, которые помогут вам овладеть новыми инструментами.
Чему вы научитесь
Dataframe API
Разработка коннекторов в Dataframe API с использованием Datasource v1 API
py4j в pyspark
Работа с py4j в pyspark
Spark Structured Streaming API
Разработка коннекторов в Spark Structured Streaming API с использованием Datasource v1 API
Scala UDF в pyspark
Использование Scala UDF в pyspark
org.apache.spark.sql.Row
Работа с org.apache.spark.sql.Row
Параллелизм задач
Управление параллелизмом задач
Для кого эта программа?
Программа разработана для дата инженеров, имеющих практический опыт работы с Apache Spark и желающих изучить внутреннюю архитектуру проекта и получить опыт и знания, которые позволят ускорить обработку данных в существующих проектах.
Что входит в программу
8 занятий
В Zoom в прямом эфире и видеозаписями в личном кабинете
4 лабы
Каждую неделю вам нужно будет решать лабораторную работу
Лабораторные работы
Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами

Андрей Титов
Senior Spark Engineer, NVIDIA
Стоимость программы

50 000 руб.

40 000 руб.
(при бронировании до 31 декабря)

Возможна рассрочка.
Для учебы вам потребуются
Входные требования
Опыт построения ETL и стриминг пайплайнов с помощью Apache Spark 2.4
Базовые знания Python
Практический опыт разработки на Scala
Понимание архитектуры распределенных вычислений с использованием HDFS, YARN
Базовые навыки Linux
Знание основ TCP/IP
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про работу с Apache Spark. Поэтому вы будете работать на общем кластере с последней стабильной версией этого инструмента. Мы будем заниматься настройкой и поддержкой этого кластера.
GitHub
Все презентации, jupyter-ноутбуки, scala-код, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь работать со Scala API и писать приложения на Apache Spark.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
Где работают наши выпускники
Здесь они живут и работают
F.A.Q.
Почему программа столько стоит?
  1. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть координатор, который присутствует на всех занятиях, помогает с практическими заданиями и отвечает на основную часть технических вопросов.
  2. Есть команда, работающая над постоянным апгрейдом программы, создающая лабы, суперачивки, решения и чекеры для проверки заданий, чтобы изучаемые инструменты и получаемые вами знания были актуальны.
  3. Есть кластер, который состоит из нескольких серверов и который администрируется и поддерживается в рабочем состоянии.
  4. И труд всех этих людей оплачивается.
Сколько времени потребуется для прохождения программы?
Занятия проходят 2 раза в неделю по 3 часа. Это 6 часов. Плюс 10−15 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Нет, эта программа достаточно продвинутая и будет сложно.
Чем ваша программа отличается от других программ по data science?
  1. Наша программа не про использование стандартных инструментов анализа данных, а про продвинутую работу с большими данными с использованием Apache Spark.
  2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
Остались вопросы?
Задайте их, мы с радостью вам ответим
Заявка на участие
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Ресурсы для подготовки
Оставьте ваши контакты и получите список ресурсов (вводных курсов, тьюториалов и руководств), которые помогут вам подготовиться к курсу
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Задайте ваш вопрос
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.