СПЕЦИАЛИСТ
ПО БОЛЬШИМ
ДАННЫМ
Возглавь переход
на Big Data

УЗНАТЬ БОЛЬШЕ
 

Трехмесячный интенсив
от лидеров индустрии

Данная программа предназначена для разработчиков, аналитиков и продакт-менеджеров, которые хотят овладеть новыми инструментами работы с данными, а также улучшить свои продукты, используя и обрабатывая данные.

Программа охватывает две наиболее востребованные темы в Data Science: обработку веб-логов в рамках DMP-систем и построение рекомендательных систем, которым будут посвящены 10 лабораторных работ и 2 проекта.

В рамках первого блока вы будете изучать экосистему Hadoop, обработку веб-логов, text mining и машинное обучение, что позволит решать такие задачи как прогнозирование оттока клиентов, сентимент-анализ отзывов, определение тематики текста, персонализация рекламы, скоринг потенциальных заемщиков, оценка стоимости активов и пр.  

В рамках второго блока изучаются алгоритмы создания рекомендаций и машинного обучения с использованием Apache Spark, что в свою очередь, позволит разрабатывать рекомендательные системы для сферы e-commerce, медиа, социальных сетей, банкинга и рекламы.

Кроме этого, вы научитесь визуализировать данные и понимать бизнес-логику, скрывающуюся за той или иной задачей, что поможет эффективнее представлять результаты вашей работы коллегам и руководству.

Возможно онлайн участие.

45% программы мы отводим на практические семинары, на которых участники непосредственно приобретают навыки, необходимые для решения реальных бизнес-задач; 35% - лекционные занятия, где дается необходимый материал, с помощью которого решаются лабораторные работы; оставшиеся 20% времени – это мастер-классы от ведущих компаний, на которых разбираются реальные бизнес-кейсы.

Помимо аудиторной работы вам понадобится как минимум 5-7 часов в неделю для решения лабораторных работ, что к концу обучения выльется в 70-80 часов чистой практики.

Получить программу

Длительность

3 месяца
начало 22 марта 2018

ГРАФИК ЗАНЯТИЙ

Вторник 19:00 - 22:00
Четверг 19:00 - 22:00

Суббота 11:00 - 14:00

Место проведения

офис ПАО "МегаФон", Оружейный пер., д.41,
БЦ Оружейный, 3 этаж

Стоимость обучения

180 000 i

Скидка 15% для early-birds до 31 января 2018

Возможна рассрочка


Регистрация

Осталось мест

34

Особенности программы

  • Удаленное участие. Все занятия мы транслируем в онлайн-режиме. Делаем мы это с использованием профессиональной камеры, видеомикшера и режиссера. Это позволяет в правильные моменты переключаться на код, слайды, спикера или оффлайновых участников. В нашем Slack-чате есть специальный канал #live, где онлайн-участники могут задавать свои вопросы и давать комментарии прямо по ходу занятия.
  • Личный кабинет. Сердце нашей программы - это лабораторные работы, которые участники решают каждую неделю. Проверка работ - это всегда узкое горлышко, если она осуществляется вручную. Мы автоматизировали этот процесс, поэтому можно быстро итерироваться в своих решениях, получая фидбек в real-time. А еще часть наших лаб и оба проекта мы сделали в виде соревнований, как на Kaggle. Также в личном кабинете в течение года мы храним все записи занятий и периодически выкладываем новые видео из своей библиотеки.
  • Кластер. Наша программа про большие данные. Для их обработки и анализа требуется кластер. Он состоит из 6 серверов, каждый из которых содержит: 24 ядра, 120 Гб ОЗУ, 1 Тб дискового пространства. Этого хватает для решения лабораторных работ и проектов. На кластере у нас стоит Hadoop, включая Apache Spark всегда самой последней версии. Мы занимаемся его конфигурированием и поддержкой.


Карьера в Data Science

За 2+ года сертификат Newprolab о прохождении программы «Специалист по большим данным» уже стал узнаваем работодателями и хорошо себя зарекомендовал среди специалистов.





Если обучение на программе не оплачивает ваша компания, то мы предлагаем вам содействие в трудоустройстве по ее окончании. Ваше резюме и достижения на программе мы передадим нашим партнерам по трудоустройству.

Партнеры мастер-классов

  • Мастер-класс по созданию
    ML-пайплайнов на Apache Spark
  • Мастер-класс по прогнозированию
    отказов от заказов на уборку
  • Мастер-класс по real-time
    рекомендациям видео-контента
  • Практикум по семантическому
    анализу текстов вакансий
  • Мастер-класс по использованию
    Apache Spark в рекомендательных
    системах
  • Мастер-класс по юнит-экономике
    рекомендательных систем

Программа

 
MODULE 1

Обработка и анализ веб-логов

В первом модуле вы научитесь применять стек
Hadoop, HBase, Hive для обработки больших данных, а также применять методы машинного обучения для задачи классификации пользователей по множеству классов.

Teacher Основной преподаватель:
Петр Ермаков,
Head of Data & Analytics, Youla в Mail.Ru Group



Map-Reduce, Hadoop, HDFS

Развертывание Hadoop кластера
в облаке AWS

HBase, Hive, Pig

Тонкости применения HBase на практике
Александр Петров,
CTO, E-Contenta

Обработка 1Тб веб-логов и хранение в HBase

Использование SQL-like запросов в Hive
для запуска MapReduce

Классификация интересов пользователей с использованием Hive

Семинар по оптимизации
MapReduce задач в Hadoop

Прогнозирование оттока клиентов банка

Визуализация данных с помощью Hue.
Работа в iPython

Сентимент-анализ отзывов в интернете

Машинное обучение.
Работа с библиотеками Python

Core project. Определение пола/возраста посетителя по его поведению в сети

Лабораторная работа

Развертывание
Hadoop-кластера
в облаке AWS
Lab

Lab

Lab

Lab

Lab

 
MODULE 2

Рекомендательные системы

Во втором модуле,  посвященном созданию рекомендательных систем и персонализации контента, упор будет сделан на работу с данными и машинное обучение в Apache Spark.

Teacher Преподаватель:
Григорий Сапунов,
Со-основатель и CTO в Intento,
Экс-глава разработки Яндекс.Новости



Неперсонализированные
рекомендательные системы

Лабораторная работа.
Неперсонализированная рекомендательная
система по фильмам

Content-based recommenders

Обработка текстов

Семинар
Практические методы анализа текстов: TF*IDF, vector model, кластеризация,
классификация

Лабораторная работа. Content-based
рекомендательная система по онлайн-курсам

Мастер-класс потоковой обработки данных
при помощи Spark Streaming

Рекомендации фильмов по данным телесмотрения

Коллаборативная фильтрация.
User-user, item-item

Лабораторная работа. Рекомендательная
система по фильмам с коллаборативной
фильтрацией с использованием user-user
и item-item подходов

Коллаборативная фильтрация.
Матричная факторизация и уменьшение
размерности

Лабораторная работа. Рекомендательная
система по фильмам с коллаборативной
фильтрацией с использованием SVD

Введение в Deep Learning

Core project. Рекомендательная система товаров интернет-магазина

Алгоритмы

TF-IDF

Term Frequency-Inverse
Document Frequency


Алгоритм для определения
близости двух документов


Lab

Коэффициент корреляции
Пирсона

Используется для определения
связи двух случайных величин,
используется для задачи


Lab

SVD

Singular Value Decomposition


Сингулярное разложение —
это математический прием,
используемый для выявления
скрытых факторов и
уменьшения размерности
данных, в частности для
поиска других
похожих пользователей.


Lab

Где работают наши выпускники?

География выпускников

  • Как продуктолог я работала с результатами построенных аналитиками моделей, при этом мне всегда было интересно понимать, что находится
    у этих моделей "под капотом". В "больших данных" я была абсолютным новичком с огромным желанием учиться, мне требовалось быстрое погружение и много качественной практики. Так я и выбрала Newprolab, по принципу: быстро, качественно и дешево - выберите любые два пункта))

    Впечатления от программы: бесконечный драйв, много сложных задач и интересных людей. Я увидела Python за месяц до начала программы, а уже в конце могла довольно быстро писать на нем рабочий код. Что такое spark вообще узнала только на самой программе, но победила и его)) Программа очень грамотно выстроена, нас последовательно вводили в курс дела, при этом информация не разжёвывалась, что стимулировало самостоятельно искать ответы на возникающие вопросы, быть исследователем. Отдельное спасибо преподавателям - подобралась опытная, неравнодушная команда: разъясняя свой материал, постоянно приводят дополнительные ссылки, рассказывают о личном опыте, подробно отвечают на вопросы. После программы я продолжаю изучать тему больших данных уже самостоятельно и, конечно, получаю гораздо больший эффект
    от общения с технической командой.
    Анна Крючкова,
    эксперт по сегментным программам ПАО "МегаФон"
     
  • После защиты диссертации в области анализа данных, я решил работать в этой же сфере, но в продакшене, однако с продакшен анализом данных знаком не был. Программа Newprolab "Специалист по большим данным" выглядела как раз тем, что мне было нужно.

    Программа была очень насыщенная, очень много материала в сжатые сроки. Очень интересный подход, когда тебе предоставляют реальные продакшен задачи, и приходится за неделю разобраться, как их решать. После таких задач, если справишься, не будет проблем с новыми незнакомыми проектами в реальной жизни. Очень тяжело в первые недели было разобраться, что и как делать в проектах, с чего следует начинать, хотелось некоего плана по шагам, как работать над проектом, мне этого не хватало. Преподаватели вообще на высоте, профессионалы в своей области, умеющие интересно преподнести материал и поддержать дружескую атмосферу.

    После завершения программы получил работу в дочерней компании Ростелекома - IQMen, был разработчиком систем анализа данных на Scala Spark. Конечно, Scala пришлось изучить самому уже на месте, но базовых знаний Spark, полученных на курсе, хватило, чтобы успешно пройти собеседование. Сейчас работаю в Берлине в крупной компании Zalando, разрабатываю модели машинного обучения в основном на Java Spark.
    Вячеслав Дубров,
    Research Engineer в Zalando
     
  • Я прошел большинство онлайн-курсов по Data Science, к примеру, классический курс от Andrew Ng. Онлайн курсы дают неплохое представление об использовании того или иного инструмента, и вместе с тем для меня было важно получить ответы на вопросы о тонкостях внедрения и использования различных технологий. Оффлайн формат, когда можно легко общаться с опытными коллегами, отлично для этого подходит.

    В первую очередь программа познакомила с огромным спектром различных инструментов, принципами их работы расширив мой технический кругозор, а также я получил понимание того, что при небольших усилиях, можно добиться очень многого, если владеть необходимым инструментарием. Благодаря программе мне удалось выбрать правильные технологии, позволяющие наилучшим образом внедрить и настроить систему. Я понял, что big data — это понятно и просто, и научился использовать эти технологии для извлечения максимальной пользы с минимальными затратами.

    * Интервью с Сергеем можно прочитать в нашем блога на Хабре
    Сергей Чеканский,
    Руководитель проектов по машинному обучению и большим данным в компании QIWI
     
  • Преподавательский
    состав крут

    У меня был опыт обработки и хранения достаточно
    больших данных с помощью традиционных реляционных
    БД, но мне хотелось его расширить. Большие надежды
    я возлагал на изучение стеков Hadoop и Spark —
    и они оправдались. А еще очень полезным оказался
    разбор реальных кейсов: практика map-reduce
    на Hadoop, применение машинного обучения для задач классификации, разбор и практическая реализация
    различных алгоритмов для получения рекомендаций.
    Дмитрий Чуйко,
    ведущий инженер-программист
     
  • Сразу же начал использовать
    новые знания в работе

    Программа оптимально чередует теорию
    и практические занятия. Больше всего мне понравились преподаватели — ребята с большим опытом в сфере IT,
    которые рассказывали жизненные примеры,
    не ограничиваясь сухой теорией. Знания, полученные
    в процессе обучения, я уже применяю в работе. Благодаря
    курсу я составил план развития направления Big Data
    в нашей компании.
    Нодиржон Азамхужаев,
    ведущий программист
     
  • Нашел на программе
    новых коллег

    Программа не просто оправдала, но превзошла
    все мои ожидания. За короткое время мы изучили
    и теоретическую часть (алгоритмы, методы, подходы
    к проектированию) и практическую (экосистему
    Hadoop, различные фреймворки для machine learning
    и визуализации). Пока шла учеба, я также понял, в какую
    сторону хочу дальше развиваться, и в результате сменил
    работу. Со своими новыми коллегами я познакомился
    на программе.
    Роман Лебедев,
    software engineer
     
  • Big Data
    is Love!

    Это были 3 месяца, от которых испытываешь настоящее удовольствие. Представьте университет наоборот:
    преподаватели с практическим опытом, лабораторные
    на основе бизнес-кейсов, а у кластера бывает даун-тайм
    потому, что надо обновиться до последней версии Spark. Представьте, что обучение — это отпуск с впечатлениями, переживаниями и знаниями в остатке. Тогда курс
    «Специалист по Big Data» — это курортный роман,
    который остается в памяти навсегда.
    Евгений Шапиро,
    software architect
     
  • Делал лабы
    ночами напролет

    Я менеджер, отвечающий за разработку ПО, и сам
    не программировал много лет, поэтому программа была
    для меня достаточно сложной, я регулярно засиживался
    за полночь, делая лабораторные. Но результат все
    оправдал: теперь, глядя на задачи в области обработки
    данных, NLP, рекомендательных систем, машинного
    обучения, я хорошо понимаю технологии и квалификацию, которые нужны для их решения. Если у вас есть
    потребность в обработке данных или создания ПО
    в этой области — программа для вас!
    Владимир Попов,
    руководитель департамента
     
  • Меня ОЧЕНЬ
    вдохновили студенты
    и преподаватели-практики!

    Пока шла учеба, я занимался по 15-20 часов
    в неделю. Но занятия вызывали живой интерес,
    поэтому я смог справиться с такой нагрузкой. Больше
    всего меня вдохновили люди, с которыми я учился,
    и преподаватели-практики, которые на протяжении
    всего курса передавали свои знания и опыт.
    Как результат — есть желание продолжать развиваться
    в этой области и уверенность в своих силах.
    Дмитрий Лабазкин,
    IT-консультант
     

Для учебы вам потребуются

  • Умение программировать
    на языках высокого уровня,
    в частности на Python 2
  • Базовые знания
    Linux
  • Понимание принципов
    работы языка
    запросов SQL
  • Знание теории вероятностей
    и статистики в объеме
    1-2 семестров тех. вуза
  • Для тех, кто не уверен в своем уровне подготовки

    первая неделя программы состоит из специальных интенсивов по Python и Linux

Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.

Спасибо, скоро мы с вами свяжемся!

А пока можете почитать наши статьи здесь.

Наверх