Подготовка витрин данных.
Создание real-time приложений. Scala API

Расписание занятий:
вт, чт 19:00 – 22:00

Место проведения:
Онлайн-формат в Zoom
13 сентября - 21 октября 2022

Apache Spark и Scala
для дата инжиниринга 4.0

Особенности и преимущества наших программ
Синхронный онлайн-формат в Zoom
Занятия 2 раза в неделю по 3 часа и возможность задать вопросы преподавателю вопросы «здесь и сейчас» и получить ответы
Лабы как реальные задачи дата-инженера
Лабораторные работы (лабы) – системные большие практические задания, которые максимально приближены к реальным задачам дата -инженеров
Сопровождение координатора
Координаторы сами проходили эту программу в прошлом как участники и хорошо понимают, с какими сложностями могут столкнуться участники. Основная задача координатора – сделать путь участника на программе максимально комфортным.
Облачный кластер для выполнения лаб
Мы предоставляем всем участникам программы кластер с Apache Spark стабильной версии.
Баланс между самостоятельностью и поддержкой
Основной принцип наших программ – соблюдение баланса между помощью координатора и самостоятельным выполнением лаб и поиском необходимых дополнительных материалов и информации.
Сертификат об успешном прохождении программы
В среднем 70% участников проходят программу успешно и получают сертификат, и 35% проходят программу с отличием!
Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Close
Король мира больших данных
Apache Spark стал стандартом для распределенной обработки больших данных
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения. Наш интенсивный курс содержит занятия с преподавателями-практиками и практические работы, которые помогут вам овладеть новыми инструментами.
Чему вы научитесь
В нашей программе есть три составляющих
Scala API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
Витрины данных
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames иDataSets API для создания витрин данных.
Real-time
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
Для кого эта программа?
-1-
Дата инженеры
У вас есть опыт работы с рядом инструментов и вам нужен опыт глубокой работы с Apache Spark? Вы сможете его получить на нашем интенсивном курсе с заданиями, которые позволят вам отработать новые навыки на практике.
-2-
Разработчики
Вы работаете на Java, Python или Scala, но ваш основной пул задач не связан с данными? Программа даст вам возможность расширить ваш скиллсет и познакомит с инструментами обработки больших данных.
-3-
Дата сайентисты
Вы умеете работать в PySpark, но хотите научиться работать со Scala API? Вся наша программа построена именно на Scala, плюс вы сможете хорошо изучить работу Spark Structured Streaming.
Что входит в программу
11 занятий
В Zoom в прямом эфире и видеозаписями в личном кабинете. На занятиях будут подробно рассмотрена работа с Dataframes API и Spark Structured Streaming.
5 инструментов
Помимо самого Apache Spark вы еще поработаете с Kafka, Elasticsearch, Cassandra, PostgreSQL, HDFS для формирования витрин данных для последующего анализа.
5 лаб
Каждую неделю вам нужно будет решать лабораторную работу. Несколько лаб объединены в единый пайплайн от получения данных из Kafka до подготовки и обновления расширенной матрицы признаков
Лабораторные работы
Все задания включают в себя живые датасеты и основаны на задачах из реальной жизни
Для удобной работы со Scala на нашей программе вначале потребуется настроить правильное окружение и научиться пользоваться IntelliJ IDEA.
В этой лабе вам нужно будет подобрать топ-150 наиболее релевантных страниц сайтов, на которых можно показывать рекламу для определенного сегмента пользователей рунета.
Во 2-й лабе вам нужно будет заняться созданием витрины данных из разных источников: файлы, NoSQL-хранилища, реляционные базы данных.
Подключаясь к Kafka, вам нужно будет фильтровать и сохранять логи по разным партициям в зависимости от даты и времени, и одновременно с этим делать агрегацию данных налету по продуктовым метрикам.
Матрица users x items необходима для многих алгоритмов рекомендательных систем. Чтобы ее получить, необходимо логи просмотров товаров пользователи трансформировать в этот требуемый формат.
Матрицу из предыдущей лабы можно обогатить дополнительными знаниями и фактами о пользователе и на основе этой расширенной матрицы дать возможность дата сайентистам строить модели машинного обучения.
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами

Егор Матешук
CDO, Qvant
Стоимость программы
85 000 руб.
  • Для физических лиц возможна рассрочка.
  • Для корпоративных клиентов – специальные условия при регистрации групп из более чем 3 участников.
  • Для выпускников наших программ и их друзей предусмотрены скидки.

Оставляйте заявку или звоните +7 495 128 86 75, чтобы узнать подробности!
Отзывы участников
Эти отзывы получены от участников корпоративных программ «Apache Spark для дата-инженеров», которые мы проводили в 2021 году для таких компаний, как Сбербанк, ВТБ, НРД и Мегафон, поэтому мы не публикуем имена авторов.
« Прекрасный курс с отменной организацией процесса. Здорово способствует пониманию "подкапотного пространства" спарка. Профессиональные преподаватели, погруженные в тему на 100%. С каждого занятия я выносил что-то, что можно было сразу применить в работе»
« Интересно было очень многое, поскольку, даже если я что-то знаю (а я должен знать, и немало), всегда полезно повторить и посмотреть, как другие могут реализовать то же самое: подключение различных систем хранения, использование библиотеки Spark ML в ETL процессе »
« Один из лучших пройденных мной курсов, прежде всего, по полноте и глубине представленного материала»

«Хороший курс, много практических задач, много примеров для понимание теории, подробное объяснение тем»


Для учебы вам потребуются
Входные требования
Умение программировать на Python, Java, Scala
Несмотря на то, что основной язык программы — Scala, вы сможете без труда его освоить, если у вас есть опыт программирования на Java или Python. Если уже работали на этих языках со Spark — это вообще больше преимущество.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
Знание языка SQL может быть полезно для написания приложений с использованием SparkSQL. А также это будет полезно, когда будете работать с внешними источниками данных — Cassandra, PostrgreSQL.
Hadoop
Apache Spark в кластерном режиме активно взаимодействует с несколькими компонентами Hadoop (HDFS, YARN). Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про работу с Apache Spark. Поэтому вы будете работать на общем кластере с последней стабильной версией этого инструмента. Мы будем заниматься настройкой и поддержкой этого кластера.
GitHub
Все презентации, jupyter-ноутбуки, scala-код, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.
Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь работать со Scala API и писать приложения на Apache Spark.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
Путь героя
Мы создаем все условия для того, чтобы максимально приблизить опыт участников к реальным условиям работы дата-инженеров. На пути будут встречаться сложности, которые вы преодолеете и откроете в себе новые качества.
Где работают наши выпускники
Здесь они живут и работают
F.A.Q.
Почему программа столько стоит?
  1. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть координатор, который присутствует на всех занятиях, помогает с практическими заданиями и отвечает на основную часть технических вопросов.
  2. Есть команда, работающая над постоянным апгрейдом программы, создающая лабы, суперачивки, решения и чекеры для проверки заданий, чтобы изучаемые инструменты и получаемые вами знания были актуальны.
  3. Есть кластер, который состоит из нескольких серверов и который администрируется и поддерживается в рабочем состоянии.
  4. И труд всех этих людей оплачивается.
Сколько времени потребуется для прохождения программы?
Занятия проходят 2 раза в неделю по 3 часа. Это 6 часов. Плюс 10−15 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Нет, эта программа достаточно продвинутая и будет сложно.
Чем ваша программа отличается от других программ по data science?
  1. Наша программа не про использование стандартных инструментов анализа данных, а про работу именно с большими данными с использованием Apache Spark.
  2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
Остались вопросы?
Задайте их, мы с радостью вам ответим
Заявка на участие
Пожалуйста, оставьте свои контакты – мы свяжемся с вами в ближайшее время и пришлем подробную программу
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Ресурсы для подготовки
Оставьте ваши контакты и получите список ресурсов (вводных курсов, тьюториалов и руководств), которые помогут вам подготовиться к курсу
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Задайте ваш вопрос
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.