Алгоритмы. Технологии. Бизнес-кейсы

Расписание занятий:
- вт, чт 19:00–22:00,
- сб 11:00–14:00

Место проведения:
Онлайн-формат - Zoom
21 сентября - 18 декабря 2021

СПЕЦИАЛИСТ ПО БОЛЬШИМ ДАННЫМ 15.0

Big Data — это больше не хайп
А необходимость для многих компаний и специалистов
Эта программа позволяет получить комплексные знания технологий распределенной обработки данных и поработать со всеми значимыми инструментами экосистемы больших данных. Интенсивный курс включает в себя занятия с ведущими практиками отрасли, практические проекты и самостоятельную работу при поддержке опытных наставников. Наша цель - помочь вам выйти на новый уровень знаний.
Чему вы научитесь
В нашей программе есть три составляющих
Алгоритмы
Научитесь обрабатывать данные в Pandas, строить модели машинного обучения (логистическая регрессия, деревья, случайный лес) в Scikit-learn, анализировать текстовые данные, применять разные алгоритмы рекомендательных систем.
Технологии
Научитесь писать MapReduce-джобы на Python с использованием Hadoop Streaming, писать SQL-like запросы в Hive для решения аналитических задач, работать с колоночной базой данных HBase, обращаться к данным на HDFS, анализировать данные в Apache Spark.
Бизнес
Научитесь выбирать правильную метрику качества для вашей задачи, собирать требования перед стартом проекта, оценивать финансовый эффект от внедрения модели, использовать сторителинг для презентации ваших результатов.
Для кого эта программа?
Разработчики
У вас есть опыт программирования, но не хватает знаний и умений в анализе данных? На программе вы научитесь использовать различные алгоритмы машинного обучения, в том числе в Apache Spark.
Аналитики
Вы умеете анализировать данные, но требуется знание новых инструментов? Уже после первой недели вы научитесь разворачивать Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На программе вы сможете погрузиться в сферу анализа больших данных, попробовав многие вещи своими руками.
Junior DS
Вы уже занимаетесь анализом данных и хотите развиваться дальше? На программе вы сможете получить знания и навыки, которые сформируют у вас специализацию: обработка больших объемов данных, рекомендательные системы, временные ряды или NLP.
Что входит в программу
36 занятий
Преподаватели-практики, работающие в ведущих компаниях, проводят занятия в прямом эфире, отвечают на вопросы и разбирают релевантных кейсы. Видеозаписи занятий доступны в личном кабинете.
10 лаб
Каждую неделю вы решаете лабораторную работу с использованием реальных датасетов и на основе кейсов из реальной жизни. Дополнительно вы можете решать суперачивки.
2 проекта
На протяжении 6 недель вы работаете над большими проектами, которые помогают вам объединить инструменты из разных разделов программы и отработать навыки, необходимые для реализации сложных многоуровневых проектов.
Часть 1. Построение DMP-системы
Проект: прогнозирование пола и возрастной категории пользователей в интернете по их логам
По итогам только первой недели обучения вы научитесь разворачивать Hadoop-кластер в облаке, используя дистрибутив HortonWorks. Сможете написать свой первый MapReduce-джоб, используя Hadoop Streaming и Python.
В этой лабе вам нужно будет отфильтровать логи, расположенные на HDFS (распределенная файловая система) и положить их в таблицу в HBase (колоночная база данных), используя map-only джоб.
Используя простые эвристики, вам нужно будет классифицировать пользователей по интересам (автомобилисты, предприниматели, домохозяйки и др.). В этот раз необходимо будет использовать Hive.
Используя обезличенные данные клиентов банка, вам нужно будет предсказать вероятность ухода из банка каждого из них в ближайшие несколько месяцев.
В этой лабе вам нужно будет найти похожие тексты вакансий. Суперачивка — участие в соревновании на Kaggle по определению эмоциональной окраски отзывов в интернете.
Часть 2. Разработка рекомендательной системы
Проект: рекомендательная система товаров в интернет-магазине
Задача — построить различного рода топы для рекомендации фильмов пользователям, по которым еще нет никаких данных.
Вам нужно будет, рассчитывая похожесть описаний онлайн-курсов, выявить те, которые можно рекомендовать в дополнение пользователям.
Используя матричные разложения, разработать рекомендации, учитывающие жанр, стиль и другие неявные факторы фильма.
Соревнование, в котором вам нужно будет добиться наилучшего скора, используя вместе разные алгоритмы рекомендательных систем.
Используя данные по просмотру телепередач разных пользователей, сделать рекомендации фильмов по подписке.
Стоимость онлайн-программы
160 000 руб.
110 000 руб.

Цена действительна при раннем бронировании программы до 01 августа 2021 года.
Возможна рассрочка.
Промокоды и дополнительная скидка выпускника применяется к цене со скидкой.
Нет дефицита информации о том, что делать.
Нет дефицита информации о том, как делать.
Проблема в том, чтобы, наконец, делать.

На нашей программе мы создаем для этого все условия. За последние три запуска средний показатель получивших сертификат от записавшихся изначально – 82%.*

*на онлайн-курсах этот показатель редко превышает 20%
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
Антон
Пилипенко
Руководитель разработки больших данных
Сбермаркет
Алексей
Астафьев
Рук Senior Data Scientist
CrazyPanda
Петр
Ермаков
Senior Data Scientist
Lamoda
Дмитрий
Коробченко
Senior Manager of AI
NVIDIA
Николай
Марков
Senior Principal Architect
Aligned Research Group
Андрей
Уваров
CDO
Яндекс.Лавка
Анатолий
Бардуков
Senior Full-Stack developer
NVIDIA
Александр
Ульянов
Data Science
Executive Director
Сбербанк
Олег
Хомюк
R&D Director
Lamoda
Денис
Димитров
Senior Data Scientist, CV Team Lead
SberAI
Владимир Опанасенко
Head of DS,
направление клиентской аналитики
Ozon
Сергей
Гришаев
Senior Data Engineer,
Сбермаркет
Павел
Клеменков
Chief Data Scientist
NVIDIA
Олег
Агапов
Data Analyst
GOG com
Андрей
Титов
Senior Spark Engineer
NVIDIA
Не нужна программа целиком?
Пройдите отдельные курсы-модули
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про большие данные, поэтому на ней вы будете работать с Hadoop-кластером, который мы администрируем, конфигурируем, поддерживаем.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Для учебы вам потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая с нашим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На программе вы будете использовать такие инструменты как Hive и Apache Spark. Для работы с ними вам пригодится умение писать запросы на этом языке: селекты, джойны, фильтры, подзапросы.
Статистика и линейная алгебра
На программе мы будем рассматривать продвинутые методы анализа данных, поэтому хорошо, если вы знаете основы статистики и линейной алгебры: среднее, дисперсия, вероятность, теорема Байеса, корреляция, ранг матрицы.
Отзывы
F.A.Q.
Почему программа столько стоит?
  1. На нашей программе вы работаете на кластере. Сама инфраструктура требует затрат, плюс мы его конфигурируем и поддерживаем. Для этого нужен человек.
  2. Все занятия транслируются в личном кабинете. Есть специальный человек, который на занятии занимается трансляцией. Следит, чтобы все было видно и вовремя.
  3. Наши преподаватели — практики из индустрии, работающие data scientist’ами и дата инженерами. Помимо них есть также координатор, который помогает и отвечает на основную часть технических вопросов.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 6−10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо.
Чем ваша программа отличается от других программ по Data Science?
1. Наша программа не просто про анализ данных, а про анализ больших данных. И такой программы больше нет. Анализ больших данных требует умения работы со специализированными инструментами и наличия инфраструктуры. Например, в течение 6 недель вы будете работать с Apache Spark. Все практические задания выполняются на кластере, который мы администрируем и поддерживаем.

2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в оффлайне она проходит или в онлайне — стабильно свыше 70% участников получают по ее итогам сертификат.
Где работают наши выпускники
Здесь они живут и работают

Остались вопросы?
Задайте их, мы с радостью вам ответим
Заявка на участие
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Ресурсы для подготовки
Пожалуйста, оставьте свои контакты и мы пришлем ресурсы для подготовки к курсу в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Задайте ваш вопрос
Пожалуйста, оставьте свои контакты и мы свяжемся с вами в ближайшее время
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.
Получите план занятий и лабораторных работ
Пожалуйста, оставьте свои контакты и мы вышлем вам расписание программы
Отправляя данную форму, вы подтверждаете свое
согласие на обработку персональных данных.