Продвинутое использование Spark 2 для задач дата-инжиниринга

Расписание занятий:
вт, чт 19:00 – 22:00

Место проведения:
Онлайн-формат в Zoom
5 - 27 апреля 2022

Apache Spark Advanced 2.0

Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Close
Apache Spark стал стандартом для распределенной обработки больших данных
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения. Наш интенсивный курс содержит занятия с преподавателями-практиками и практические работы, которые помогут вам овладеть новыми инструментами.
Чему вы научитесь
Dataframe API
Разработка коннекторов в Dataframe API с использованием Datasource v1 API
py4j в pyspark
Работа с py4j в pyspark
Spark Structured Streaming API
Разработка коннекторов в Spark Structured Streaming API с использованием Datasource v1 API
Scala UDF в pyspark
Использование Scala UDF в pyspark
org.apache.spark.sql.Row
Работа с org.apache.spark.sql.Row
Параллелизм задач
Управление параллелизмом задач
Для кого эта программа?
Программа разработана для дата инженеров, имеющих практический опыт работы с Apache Spark и желающих изучить внутреннюю архитектуру проекта и получить опыт и знания, которые позволят ускорить обработку данных в существующих проектах.
Что входит в программу
8 занятий
В Zoom в прямом эфире и видеозаписями в личном кабинете
4 лабы
Каждую неделю вам нужно будет решать лабораторную работу
Лабораторные работы
Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами

Андрей Титов
Senior Spark Engineer, NVIDIA
Стоимость программы

50 000 руб.

45 000 руб.
(при бронировании до 1 февраля)
Возможна рассрочка.
Для учебы вам потребуются
Входные требования
Опыт построения ETL и стриминг пайплайнов с помощью Apache Spark 2.4
Базовые знания Python
Практический опыт разработки на Scala
Понимание архитектуры распределенных вычислений с использованием HDFS, YARN
Базовые навыки Linux
Знание основ TCP/IP
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про работу с Apache Spark. Поэтому вы будете работать на общем кластере с последней стабильной версией этого инструмента. Мы будем заниматься настройкой и поддержкой этого кластера.
GitHub
Все презентации, jupyter-ноутбуки, scala-код, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь работать со Scala API и писать приложения на Apache Spark.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
Где работают наши выпускники
Здесь они живут и работают
F.A.Q.
Почему программа столько стоит?
  1. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть координатор, который присутствует на всех занятиях, помогает с практическими заданиями и отвечает на основную часть технических вопросов.
  2. Есть команда, работающая над постоянным апгрейдом программы, создающая лабы, суперачивки, решения и чекеры для проверки заданий, чтобы изучаемые инструменты и получаемые вами знания были актуальны.
  3. Есть кластер, который состоит из нескольких серверов и который администрируется и поддерживается в рабочем состоянии.
  4. И труд всех этих людей оплачивается.
Сколько времени потребуется для прохождения программы?
Занятия проходят 2 раза в неделю по 3 часа. Это 6 часов. Плюс 10−15 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Нет, эта программа достаточно продвинутая и будет сложно.
Чем ваша программа отличается от других программ по data science?
  1. Наша программа не про использование стандартных инструментов анализа данных, а про продвинутую работу с большими данными с использованием Apache Spark.
  2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
Остались вопросы?
Задайте их, мы с радостью вам ответим
Заявка на участие
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Ресурсы для подготовки
Оставьте ваши контакты и получите список ресурсов (вводных курсов, тьюториалов и руководств), которые помогут вам подготовиться к курсу
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Задайте ваш вопрос
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.