Подготовка витрин данных.
Создание real-time приложений. Scala API

Расписание занятий:
вт, чт 19:00 – 22:00

Место проведения:
Онлайн-формат в Zoom
16 февраля – 25 марта 2021

Apache Spark и Scala
для дата инжиниринга 1.0

Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Close
Король мира больших данных
Apache Spark стал стандартом для распределенной обработки больших данных
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения. Наш интенсивный курс содержит занятия с преподавателями-практиками и практические работы, которые помогут вам овладеть новыми инструментами.
Чему вы научитесь
В нашей программе есть три составляющих
Scala API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
Витрины данных
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.
Real-time
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
Для кого эта программа?
-1-
Дата инженеры
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на нашем интенсивном курсе с заданиями, которые позволят вам отработать новые навыки на практике.
-2-
Разработчики
Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.
-3-
Дата сайентисты
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.
Что входит в программу
11 занятий
В Zoom в прямом эфире и видеозаписями в личном кабинете. На занятиях будут подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
5 инструментов
Помимо самого Apache Spark вы еще поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
5 лаб
Каждую неделю вам нужно будет решать лабораторную работу. Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков
Лабораторные работы
Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами

Андрей Титов
Senior Spark Engineer, NVIDIA

Егор Матешук
CDO, Qvant
Стоимость программы 90 000 руб.
62 000 руб.
Возможна рассрочка. Выпусникам наших программ — дополнительная скидка 10%.

Цена действует до 30 января 2021 г.
Для учебы вам потребуются
Входные требования
Умение программировать на Python, Java, Scala
Несмотря на то, что основной язык программы — Scala, вы сможете без труда его освоить, если у вас есть опыт программирования на Java или Python. Если уже работали на этих языках со Spark — это вообще больше преимущество.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
Знание языка SQL может быть полезно для написания приложений с использованием SparkSQL. А также это будет полезно, когда будете работать с внешними источниками данных — Cassandra, PostrgreSQL.
Hadoop
Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про работу с Apache Spark. Поэтому вы будете работать на общем кластере с последней стабильной версией этого инструмента. Мы будем заниматься настройкой и поддержкой этого кластера.
GitHub
Все презентации, jupyter-ноутбуки, scala-код, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь работать со Scala API и писать приложения на Apache Spark.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
Отзывы участников
« Познакомился со Scala и возможностью использовать Spark вместо PySpark »
« Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе »
« Получил много практического опыта, узнал много новых аспектов работы со Spark, про которые вряд ли узнал бы на текущих задачах в работе »
Где работают наши выпускники
Здесь они живут и работают
F.A.Q.
Почему программа столько стоит?
  1. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть координатор, который присутствует на всех занятиях, помогает с практическими заданиями и отвечает на основную часть технических вопросов.
  2. Есть команда, работающая над постоянным апгрейдом программы, создающая лабы, суперачивки, решения и чекеры для проверки заданий, чтобы изучаемые инструменты и получаемые вами знания были актуальны.
  3. Есть кластер, который состоит из нескольких серверов и который администрируется и поддерживается в рабочем состоянии.
  4. И труд всех этих людей оплачивается.
Сколько времени потребуется для прохождения программы?
Занятия проходят 2 раза в неделю по 3 часа. Это 6 часов. Плюс 10−15 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Нет, эта программа достаточно продвинутая и будет сложно.
Чем ваша программа отличается от других программ по data science?
  1. Наша программа не про использование стандартных инструментов анализа данных, а про работу именно с большими данными с использованием Apache Spark.
  2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
Остались вопросы?
Задайте их, мы с радостью вам ответим
Заявка на участие
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Ресурсы для подготовки
Оставьте ваши контакты и получите список ресурсов (вводных курсов, тьюториалов и руководств), которые помогут вам подготовиться к курсу
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Задайте ваш вопрос
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.