Алгоритмы. Технологии. Бизнес-кейсы

Расписание занятий:
- вт, чт 19:00–22:00,
- сб 11:00–14:00

Место проведения:
Офис компании МегаФон,
Оружейный пер. 41, Москва
17 сентября – 10 декабря

СПЕЦИАЛИСТ ПО БОЛЬШИМ ДАННЫМ 11.0

Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Да, соглашаюсь
Close
Big Data — это больше не хайп
А необходимость для многих компаний и специалистов
Объем данных в организациях растет экспоненциально. Анализировать их стандартными инструментами становится все сложнее. В этом случае на помощь приходят технологии распределенной обработки: экосистема Hadoop (HDFS, MapReduce, Hive, HBase), Apache Spark.
Что входит в программу
10 лаб
Каждую неделю вам нужно будет решить лабораторную работу и суперачивку
2 проекта
Помимо лаб вы работаете в командах над большими проектами по 6 недель
36 занятий
С трансляциями в прямом эфире и видеозаписями в личном кабинете
Для кого эта программа?
-1-
Разработчики
У вас есть опыт программирования, но не хватает знаний и умений в анализе данных? На программе вы научитесь использовать различные алгоритмы машинного обучения, в том числе в Apache Spark.
-2-
Аналитики
Вы умеете анализировать данные, но требуется знание новых инструментов? Уже после первой недели вы научитесь разворачивать Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На программе вы получите серьезное погружение в сферу анализа больших данных, попробовав многие вещи своими руками.
Чему вы научитесь
В нашей программе есть три составляющих
Алгоритмы
Научитесь обрабатывать данные в Pandas, строить модели машинного обучения (логистическая регрессия, деревья, случайный лес) в Scikit-learn, анализировать текстовые данные, применять разные алгоритмы рекомендательных систем.
Технологии
Научитесь писать MapReduce-джобы на Python с использованием Hadoop Streaming, писать SQL-like запросы в Hive для решения аналитических задач, работать с колоночной базой данных HBase, обращаться к данным на HDFS, анализировать данные в Apache Spark.
Бизнес
Научитесь выбирать правильную метрику качества для вашей задачи, собирать требования перед стартом проекта, оценивать финансовый эффект от внедрения модели, использовать сторителинг для презентации ваших результатов.
Модуль 1. Построение DMP-системы
Проект: прогнозирование пола и возрастной категории пользователей в интернете по их логам
По итогам только первой недели обучения вы научитесь разворачивать Hadoop-кластер в облаке, используя дистрибутив HortonWorks. Сможете написать свой первый MapReduce-джоб, используя Hadoop Streaming и Python.
В этой лабе вам нужно будет отфильтровать логи, расположенные на HDFS (распределенная файловая система) и положить их в таблицу в HBase (колоночная база данных), используя map-only джоб.
Используя простые эвристики, вам нужно будет классифицировать пользователей по интересам (автомобилисты, предприниматели, домохозяйки и др.). В этот раз необходимо будет использовать Hive.
Используя обезличенные данные клиентов банка, вам нужно будет предсказать вероятность ухода из банка каждого из них в ближайшие несколько месяцев.
В этой лабе вам нужно будет найти похожие тексты вакансий. Суперачивка — участие в соревновании на Kaggle по определению эмоциональной окраски отзывов в интернете.
Модуль 2. Разработка рекомендательной системы
Проект: рекомендательная система товаров в интернет-магазине
Задача — построить различного рода топы для рекомендации фильмов пользователям, по которым еще нет никаких данных.
Вам нужно будет, рассчитывая похожесть описаний онлайн-курсов, выявить те, которые можно рекомендовать в дополнение пользователям.
Используя матричные разложения, разработать рекомендации, учитывающие жанр, стиль и другие неявные факторы фильма.
Соревнование, в котором вам нужно будет добиться наилучшего скора, используя вместе разные алгоритмы рекомендательных систем.
Используя данные по просмотру телепередач разных пользователей, сделать рекомендации фильмов по подписке.
1
2
3
4
5
6
7
NLP
ML
Не нужна программа целиком?
Возьмите отдельные модули
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
Антон Пилипенко
Data Engineer,
Lamoda
Николай Марков
Senior Data Engineer,
Aligned Research Group
Организатор конференции PyData и Data Science завтраков
Андрей Зимовнов
Старший разработчик,
Яндекс.Дзен
Александр Ульянов
Data Science Executive Director, Сбербанк
Олег Хомюк
Head of R&D,
Lamoda
Александр Филатов
Product Analytics Manager,
VISA
Владимир Опанасенко
Исполнительный директор, Газпромбанк
Кирилл Данилюк
Engineering Manager,
Self-Driving Car, Yandex
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про большие данные, поэтому на ней вы будете работать с Hadoop-кластером, который мы администрируем, конфигурируем, поддерживаем.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Стоимость программы
200 000 руб. 170 000 руб.
Возможна рассрочка
Друзьям выпускников всегда 20% скидка
Партнер по инфраструктуре
Для учебы вам потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая с нашим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На программе вы будете использовать такие инструменты как Hive и Apache Spark. Для работы с ними вам пригодится умение писать запросы на этом языке: селекты, джойны, фильтры, подзапросы.
Статистика и линейная алгебра
На программе мы будем рассматривать продвинутые методы анализа данных, поэтому хорошо, если вы знаете основы статистики и линейной алгебры: среднее, дисперсия, вероятность, теорема Байеса, корреляция, ранг матрицы.
1 модуль Hadoop
Занятия (4)
Даты
Преподаватели
Cтоимость
HDFS

MapReduce

HBase

Hive
Антон Пилипенко Кирилл Данилюк
24 сентября – 3 октября 2019
28 000 ₽
Content Oriented Web
Make great presentations, longreads, and landing pages, as well as photo stories, blogs, lookbooks, and all other kinds of content oriented projects.
2 модуль Spark
Занятия (6)
Даты
Преподаватели
Cтоимость
Введение

Dataframes

Spark ML: пайплайны

Практический ML
на Spark

Spark GraphX

Spark Streaming
Павел Клеменков
29 октября – 3 декабря 2019
42 000 ₽
Content Oriented Web
Make great presentations, longreads, and landing pages, as well as photo stories, blogs, lookbooks, and all other kinds of content oriented projects.
3 модуль ML
Занятия (7)
Даты
Преподаватели
Cтоимость
Введение в ML

Практический ML

ML алгоритмы

ML на текстах

Сентимент-анализ

Ансамбли в ML

Введение в Deep Learning
Владимир Опанасенко Кирилл Данилюк Дмитрий Коробченко
10 октября – 19 октября,
31 октября,
7 декабря 2019
49 000 ₽
Content Oriented Web
Make great presentations, longreads, and landing pages, as well as photo stories, blogs, lookbooks, and all other kinds of content oriented projects.
4 модуль Time Series
Занятия (2)
Даты
Преподаватели
Cтоимость
Введение в анализ временных рядов

Обработка данных
для временных рядов
Денис Димитров
28–30 ноября 2019
14 000 ₽
Content Oriented Web
Make great presentations, longreads, and landing pages, as well as photo stories, blogs, lookbooks, and all other kinds of content oriented projects.
5 модуль NLP
Занятия (5)
Даты
Преподаватели
Cтоимость
Введение в NLP

Парсинг сайтов
и расчет похожести

ML на текстах

Сентимент-анализ

Тематическое моделирование
Владимир Опанасенко
5–8 октября, 17–22 октября 2019
35 000 ₽
Content Oriented Web
Make great presentations, longreads, and landing pages, as well as photo stories, blogs, lookbooks, and all other kinds of content oriented projects.
6 модуль Recommenders
Занятия (4)
Даты
Преподаватели
Cтоимость
Введение в рек. системы и неперсонализи-
рованные РС

Content-based

SVD, BMF, факторизация

Оценка качества РС
Андрей Зимовнов
26 октября – 23 ноября
2019
28 000 ₽
Content Oriented Web
Make great presentations, longreads, and landing pages, as well as photo stories, blogs, lookbooks, and all other kinds of content oriented projects.
7 модуль Вusiness Track
Занятия (4)
Даты
Преподаватели
Cтоимость
Процесс анализа
данных и анализ требований

Выбор метрик и финансовый эффект

A/B-тестирование

Мастер-класс + сторителлинг
и визуализация данных
Олег Хомюк
Александр Ульянов
Кирилл Данилюк
Александр Филатов
7 – 21 ноября, 5 декабря
2019
28 000 ₽
Content Oriented Web
Make great presentations, longreads, and landing pages, as well as photo stories, blogs, lookbooks, and all other kinds of content oriented projects.
Запись вебинара о программе
Отзывы
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь разворачивать свой Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
F.A.Q.
Почему программа столько стоит?
1. На нашей программе вы работаете на кластере. Сама инфраструктура требует затрат, плюс мы его конфигурируем и поддерживаем. Для этого нужен человек.
2. Все занятия транслируются в личном кабинете. Есть специальный человек, который на занятии занимается трансляцией. Следит, чтобы все было видно и вовремя.
3. Наши преподаватели — практики из индустрии, работающие data scientist'ами и дата инженерами. Помимо них есть также координатор, который помогает и отвечает на основную часть технических вопросов.
4. Это офлайновая программа с площадкой в центре Москвы.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо.
Чем ваша программа отличается от других программ по data science?
1. Наша программа не просто про анализ данных, а про анализ больших данных. И такой программы больше нет. Анализ больших данных требует умения работы со специализированными инструментами и наличия инфраструктуры. Например, в течение 6 недель вы будете работать с Apache Spark. Все практические задания выполняются на кластере, который мы администрируем и поддерживаем.
2. Это офлайновая программа (этим отличается от онлайн-курсов). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, и мы с радостью вам ответим
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте свой вопрос и контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.