Алгоритмы. Технологии. Бизнес-кейсы
г. Москва, Оружейный пер., д.41, офис ПАО "МегаФон"

Расписание занятий:
вт, чт 19:00 - 22:00, сб 11:00 - 14:00
26 марта — 27 июня 2019

СПЕЦИАЛИСТ ПО БОЛЬШИМ ДАННЫМ 10.0

Big Data — это больше не хайп
А необходимость для многих компаний и специалистов
Объем данных в организациях растет экспоненциально. Анализировать их стандартными инструментами становится все сложнее. В этом случае на помощь приходят технологии распределенной обработки: экосистема Hadoop (HDFS, MapReduce, Hive, HBase), Apache Spark.

10 лаб
Каждую неделю вам нужно будет решить лабораторную работу и суперачивку
2 проекта
Помимо лаб вы работаете в командах над большими проектами по 6 недель
36 занятий
С трансляциями в прямом эфире и видеозаписями в личном кабинете
Для кого эта программа?
-1-
Разработчики
У вас есть опыт программирования, но не хватает знаний и умений в анализе данных? На программе вы научитесь использовать различные алгоритмы машинного обучения, в том числе в Apache Spark.
-2-
Аналитики
Вы умеете анализировать данные, но требуется знание новых инструментов? Уже после первой недели вы научитесь разворачивать Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На программе вы получите серьезное погружение в сферу анализа больших данных, попробовав многие вещи своими руками.
Чему вы научитесь
В нашей программе есть три составляющих
Алгоритмы
Научитесь обрабатывать данные в Pandas, строить модели машинного обучения (логистическая регрессия, деревья, случайный лес) в Scikit-learn, анализировать текстовые данные, применять разные алгоритмы рекомендательных систем.
Технологии
Научитесь писать MapReduce-джобы на Python с использованием Hadoop Streaming, писать SQL-like запросы в Hive для решения аналитических задач, работать с колоночной базой данных HBase, обращаться к данным на HDFS, анализировать данные в Apache Spark.
Бизнес
Научитесь выбирать правильную метрику качества для вашей задачи, собирать требования перед стартом проекта, оценивать финансовый эффект от внедрения модели, использовать сторителинг для презентации ваших результатов.
Модуль 1. Построение DMP-системы
Проект: прогнозирование пола и возрастной категории пользователей в интернете по их логам
По итогам только первой недели обучения вы научитесь разворачивать Hadoop-кластер в облаке, используя дистрибутив HortonWorks. Сможете написать свой первый MapReduce-джоб, используя Hadoop Streaming и Python.
В этой лабе вам нужно будет отфильтровать логи, расположенные на HDFS (распределенная файловая система) и положить их в таблицу в HBase (колоночная база данных), используя map-only джоб.
Используя простые эвристики, вам нужно будет классифицировать пользователей по интересам (автомобилисты, предприниматели, домохозяйки и др.). В этот раз необходимо будет использовать Hive.
Используя обезличенные данные клиентов банка, вам нужно будет предсказать вероятность ухода из банка каждого из них в ближайшие несколько месяцев.
В этой лабе вам нужно будет найти похожие тексты вакансий. Суперачивка — участие в соревновании на Kaggle по определению эмоциональной окраски отзывов в интернете.
Модуль 2. Разработка рекомендательной системы
Проект: рекомендательная система товаров в интернет-магазине
Задача — построить различного рода топы для рекомендации фильмов пользователям, по которым еще нет никаких данных.
Вам нужно будет, рассчитывая похожесть описаний онлайн-курсов, выявить те, которые можно рекомендовать в дополнение пользователям.
Используя матричные разложения, разработать рекомендации, учитывающие жанр, стиль и другие неявные факторы фильма.
Соревнование, в котором вам нужно будет добиться наилучшего скора, используя вместе разные алгоритмы рекомендательных систем.
Используя данные по просмотру телепередач разных пользователей, сделать рекомендации фильмов по подписке.
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
Антон Пилипенко
Big Data Engineer, Mail.ru Group
Николай Марков
Senior Data Engineer, Aligned Research Group
Организатор конференции PyData и Data Science завтраков
Павел Клеменков
Chief Data Scientist (Data Platform), NVIDIA
Организатор митапов Moscow Spark
Андрей Зимовнов
Старший разработчик, Яндекс.Дзен
Александр Ульянов
Data Science Executive Director, Сбербанк
Олег Хомюк
Head of R&D, Lamoda
Александр Филатов
Product Analytics Manager, VISA
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про большие данные, поэтому на ней вы будете работать с Hadoop-кластером, который мы администрируем, конфигурируем, поддерживаем.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Стоимость для сотрудников МегаФон и дочерних компаний

200 000 руб. 150 000 руб.
Стоимость фиксирована
Возможна рассрочка
Для учебы потребуются знания
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая с нашим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На программе вы будете использовать такие инструменты как Hive и Apache Spark. Для работы с ними вам пригодится умение писать запросы на этом языке: селекты, джойны, фильтры, подзапросы.
Статистика и линейная алгебра
На программе мы будем рассматривать продвинутые методы анализа данных, поэтому хорошо, если вы знаете основы статистики и линейной алгебры: среднее, дисперсия, вероятность, теорема Байеса, корреляция, ранг матрицы.
Отзывы
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже только после первой недели вы научитесь разворачивать свой Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
Видео с вебинара
F.A.Q.
Почему программа такая дорогая?
1. На нашей программе вы работаете на кластере. Сама инфраструктура требует затрат, плюс мы его конфигурируем и поддерживаем. Для этого нужен человек.
2. Все занятия транслируются в личном кабинете. Есть специальный человек, который на занятии занимается трансляцией. Следит, чтобы все было видно и вовремя.
3. Наши преподаватели — практики из индустрии, работающие data scientist'ами и дата инженерами. Помимо них есть также координатор, который помогает и отвечает на основную часть технических вопросов.
4. Это офлайновая программа с площадкой в центре Москвы.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо.
Чем ваша программа отличается от других программ по data science?
1. Наша программа не просто про анализ данных, а про анализ больших данных. Это требует умения работы со специализированными инструментами. Например, в течение 6 недель вы будете работать с Apache Spark.
2. Это офлайновая программа (этим отличается от онлайн-курсов). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, и мы с радостью вам ответим
Оставьте свой вопрос и контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.