Заявка
Close
Оставьте заявку и мы с вами свяжемся
Конфиденциальность ваших данных гарантирована

Подготовка витрин данных. Создание real-time приложений. Scala API

Расписание занятий:
вт, чт 19:00 – 22:00
16 февраля – 25 марта 2021

Apache Spark для дата инженеров


Место проведения:
Онлайн-формат - Zoom
Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Да, соглашаюсь
Close
Король мира больших данных
Apache Spark стал стандартом для распределенной обработки больших данных
Apache Spark – самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме. При помощи него удобно создавать витрины данных, подключаясь к различным источникам: Kafka, Elasticsearch, Cassandra, а также создавать real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения, чтобы поддерживать их в актуальном состоянии.
Что входит в программу
5 лаб
Каждую неделю вам нужно будет решать лабораторную работу. Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков.
5 инструментов
Помимо самого Apache Spark вы еще поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
11 занятий
В Zoom в прямом эфире и видеозаписями в личном кабинете. На занятиях будут подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
Для кого эта программа?
-1-
Дата инженеры
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить, решая лабы и задавая вопросы нашим преподавателям-практикам.
-2-
Администраторы БД
Вы умеете работать с классическими реляционными БД или NoSQL-хранилищами и хотите получить опыт работы со смежным инструментом – Apache Spark? На программе вы сможете поработать с ним вплотную.
-3-
Дата сайентисты
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.
Чему вы научитесь
В нашей программе есть три составляющих
Scala API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
Витрины данных
Чтение и запись Parquet/ORC, работа с ElasticSearch, работа с Cassandra, работа с PostgreSQL через JDBC-коннектор и работа с DataFrames и DataSets API для создания витрин данных.
Real-time
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
Лабораторные работы
Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
В 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.
Стоимость программы 90 000 руб.
62 000 руб.
Возможна рассрочка. Для выпускников наших программ действует дополнительная скидка.

Цена действует до 30 января 2021 г.
Наши преподаватели — практики из индустрии, умеющие объяснять сложные вещи простыми словами
Андрей Титов
Senior Spark Engineer, NVIDIA
Егор Матешук
CDO, Qvant
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про работу с Apache Spark. Поэтому вы будете работать на общем кластере с последней стабильной версией этого инструмента. Мы будем заниматься настройкой и поддержкой этого кластера.
GitHub
Все презентации, jupyter-ноутбуки, scala-код, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Для учебы вам потребуются
Входные требования
Умение программировать на Python, Java, Scala
Несмотря на то, что основной язык программы – Scala, вы сможете без труда его освоить, если у вас есть опыт программирования на Java или Python. Если уже работали на этих языках со Spark – это вообще больше преимущество.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
Знание языка SQL может быть полезно для написания приложений с использованием SparkSQL. А также это будет полезно, когда будете работать с внешними источниками данных – Cassandra, PostrgreSQL.
Hadoop
Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.
Вебинар о программе
Артем Пичугин, Head of Data Programs и Виталий Монастырев, выпусник программы, рассказывают о том, из чего состоит программа, кому она подходит и как ее лучше проходить.
Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь работать со Scala API и писать приложения на Apache Spark.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
F.A.Q.
Почему программа столько стоит?
1. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть координатор, который помогает и отвечает на основную часть технических вопросов.
2. Есть команда, работающая над постоянным апгрейдом программы, создающая лабы, суперачивки, решения и чекеры для проверки заданий, чтобы изучаемые инструменты и получаемые вами знания были актуальны.
3. Есть кластер, который состоит из нескольких серверов и который администрируется и поддерживается в рабочем состоянии.
И труд всех этих людей оплачивается.
Сколько времени потребуется для обучения?
Занятия проходят 2 раза в неделю по 3 часа. Это 6 часов. Плюс 10-15 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Нет, эта программа достаточно продвинутая и будет сложно.
Чем ваша программа отличается от других программ по data science?
1. Наша программа не про использование стандартных инструментов анализа данных, а про работу именно с большими данными с использованием Apache Spark.
2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в оффлайне она проходит или в онлайне – стабильно свыше 70% участников получают по ее итогам сертификат.
Где работают наши выпускники
Здесь они живут и работают

Остались вопросы?
Задайте их, мы с радостью вам ответим
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте свой вопрос и контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.