Apache Spark. Apache Flink. Вывод моделей в прод

Расписание занятий:
вт, чт 19:00 - 22:00

Место проведения:
Офис компании МегаФон,
Оружейный пер. 41, Москва
1 октября – 5 ноября

АНАЛИЗ ДАННЫХ
НА SCALA 2.0

Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Да, соглашаюсь
Close
Язык, открывающий новые возможности
Как для дата сайентистов, так и для дата инженеров
Зная Scala, вы будете писать более стабильные и быстрые приложения на Apache Spark. Вам не надо будет ждать, пока новые функции будут реализованы в Python API. Вам не надо будет ужасаться количеству строк, написанных на Java. Вы сможете работать с Apache Flink и Akka. Сможете писать ML-код в прод, в том числе используя библиотеки XGBoost4j, Deeplearning4j.
Что входит в программу
5 лаб
Каждую неделю вам нужно будет решить лабораторную работу и суперачивку
1000 строк кода
Написанных на семинарах, а также для решения лаб и суперачивок
10 занятий
С преподавателями-практиками, обладающих серьезным опытом в анализе данных на Scala
Для кого эта программа?
-1-
Дата сайентисты
Вы уже анализируете данные, используя Python? На нашей программе вы научитесь писать код на Scala в продакшен, а также сможете получить большую функциональность Spark в Scala API.
-2-
Дата инженеры
Вы умеете извлекать, обрабатывать и загружать данные, используя Python или Java? Теперь научитесь это делать, взаимодействуя со Spark, Flink, Kafka через Scala API.
-3-
Scala-разработчики
Вы уже обладаете опытом программирования на Scala? У нас вы научитесь при помощи него анализировать данные и сможете перейти в смежную и более перспективную отрасль.
Чему вы научитесь
В нашей программе есть три составляющих
Язык
Научитесь использовать Scala в рамках парадигмы функционального программирования и объектно-ориентированного. Научитесь использовать функции высшего порядка, частично определенные функции, каррирование, коллекции и многое другое.
Spark
Научитесь обрабатывать данные, используя RDD, Dataframes и Datasets. Писать на Scala ETL-джобы, строить модели машинного обучения, оптимизировать их гиперпараметры, а также создавать приложения для near real-time обработки.
Production
Научитесь пользоваться Apache Flink для настоящего real-time. Работать с такими библиотеками машинного обучения как XGBoost4j, Deeplearning4j, которые больше подходят для использования в production-среде.
Практика
Вводная лаба, чтобы познакомиться с синтаксисом и принципами работы со Scala. В ней нужно реализовать неперсонализированную рекомендательную систему: рассчитать топы лучших фильмов.
В этой лабе вам нужно будет рассчитать похожесть описаний различных онлайн-курсов. Это ляжет в основу другой рекомендательной системы. Вы будете оперировать датафреймами и датасетами на Spark.
Вам нужно будет решить задачу классификации: будет ли смотреть клиент тот или иной фильм, основываясь на данных просмотра им телевизора. Для решения задачи вы будете пользоваться библиотекой Spark ML.
Вам в Kafka будут приходить данные о пользователе на сайте. Вам нужно будет, используя Spark Streaming, сделать прогноз относительно его пола и возрастной категории.
Используя данные о поведении клиентов банка, сделать прогноз, уйдет ли тот или иной клиент в течение следующих 3 месяцев. Модель нужно построить с применением XGBoost4j, больше пригодной для production.
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
Андрей Титов
Senior Spark Engineer, NVIDIA
Егор Матешук
Senior Data Engineer, MaximaTelecom
Дмитрий Бугайченко
Инженер-аналитик, OK.ru
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про использование Scala на Spark и Flink, поэтому на ней вы будете работать с кластером, который мы администрируем, конфигурируем, поддерживаем.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Стоимость 100 000 руб.
90 000 руб.
Скидка действует до 1 сентября 2019
Возможна рассрочка
Для учебы вам потребуются
Входные требования
Умение программировать на Python или Java
Если вы умеете анализировать данные с помощью одного из этих языков программирования, то у нас вы сможете научиться анализировать данные, используя Scala.
Базовые знания Linux
Какое-то количество времени вы будете проводить в командной строке Linux, работая с нашим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На программе вы будете использовать такой инструмент как Apache Spark. Для работы с ним вам может пригодиться умение писать запросы на этом языке: селекты, джойны, фильтры, подзапросы.
Статистика и линейная алгебра
На программе мы будем рассматривать алгоритмы машинного обучения и их реализацию в различных библиотеках, имеющих Scala API, поэтому хорошо, если вы знаете основы статистики и линейной алгебры: среднее, дисперсия, вероятность, теорема Байеса, корреляция, ранг матрицы.
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь использовать Scala для анализа данных. Во время следующих недель вы будет уже уметь использовать Scala в Apache Spark.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
F.A.Q.
Почему программа столько стоит?
1. На нашей программе вы работаете на кластере. Сама инфраструктура требует затрат, плюс мы его конфигурируем и поддерживаем. Для этого нужен человек.
2. Наши преподаватели — практики из индустрии, работающие data scientist'ами и дата инженерами. Помимо них есть также координатор, который помогает и отвечает на основную часть технических вопросов. И труд этих людей оплачивается.
Сколько времени потребуется для обучения?
Занятия проходят 2 раза в неделю по 3 часа. Это 6 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо.
Чем ваша программа отличается от других программ по data science?
1. Наша программа не просто про анализ данных, а про анализ данных на Scala. Большинство других программ ориентированы на Python.
2. Кроме этого, на нашей программе вы работаете на кластере.
3. Это офлайновая программа (этим отличается от онлайн-курсов). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, и мы с радостью вам ответим
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте свой вопрос и контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.