СПЕЦИАЛИСТ
ПО БОЛЬШИМ
ДАННЫМ
Возглавь переход
на Big Data

УЗНАТЬ БОЛЬШЕ
 

Трехмесячный интенсив
от лидеров индустрии

Программа выстроена вокруг двух кейсов: разработка DMP-системы и построение рекомендательных систем. В рамках первого кейса участники изучают экосистему Hadoop, обработку веб-логов и машинное обучение. В рамках второго кейса слушатели изучают алгоритмы создания рекомендаций и машинного обучения, используя Apache Spark.

Возможно онлайн участие.

В результате обучения вы сможете:

  • • самостоятельно разворачивать облачные кластеры,
  • • ставить и решать с достаточной точностью задачи машинного обучения,
  • • осуществить эффективный вход в новую индустрию, приобретя необходимые знания, навыки и контакты,
  • • стартовать и развивать новое направление в своей компании.

Скачать подробную программу курса

Длительность

3 месяца
начало 21 сентября 2017

ГРАФИК ЗАНЯТИЙ

Вторник,
Четверг 19:00 - 22:00

Суббота 11:00 - 14:00

Место проведения

GVA, главный зал
переулок Капранова, 3
6-й этаж
250м от метро Краснопресненская

Стоимость обучения:

180 000 i

Регистрация

Особенности программы

  • Удаленное участие. Все занятия мы транслируем в онлайн-режиме. Делаем мы это с использованием профессиональной камеры, видеомикшера и режиссера. Это позволяет в правильные моменты переключаться на код, слайды, спикера или оффлайновых участников. В нашем Slack-чате есть специальный канал #live, где онлайн-участники могут задавать свои вопросы и давать комментарии прямо по ходу занятия.
  • Личный кабинет. Сердце нашей программы - это лабораторные работы, которые участники решают каждую неделю. Проверка работ - это всегда узкое горлышко, если она осуществляется вручную. Мы автоматизировали этот процесс, поэтому можно быстро итерироваться в своих решениях, получая фидбек в real-time. А еще часть наших лаб и оба проекта мы сделали в виде соревнований, как на Kaggle. Также в личном кабинете в течение года мы храним все записи занятий и периодически выкладываем новые видео из своей библиотеки.
  • Кластер. Наша программа про большие данные. Для их обработки и анализа требуется кластер. Он состоит из 6 серверов, каждый из которых содержит: 24 ядра, 120 Гб ОЗУ, 1 Тб дискового пространства. Этого хватает для решения лабораторных работ и проектов. На кластере у нас стоит Hadoop, включая Apache Spark всегда самой последней версии. Мы занимаемся его конфигурированием и поддержкой.


Партнеры по трудоустройству




Если обучение на программе не оплачивает ваша компания, то мы предлагаем вам содействие в трудоустройстве по ее окончании. Ваше резюме и достижения на программе мы передадим нашим партнерам по трудоустройству.

Партнеры мастер-классов

  • Мастер-класс по созданию
    ML-пайплайнов на Apache Spark
  • Мастер-класс по прогнозированию
    отказов от заказов на уборку
  • Мастер-класс по real-time
    рекомендациям видео-контента
  • Практикум по семантическому
    анализу текстов вакансий
  • Мастер-класс по использованию
    Apache Spark в рекомендательных
    системах
  • Мастер-класс по юнит-экономике
    рекомендательных систем

Программа

 
MODULE 1

Обработка и анализ веб-логов

В первом модуле вы научитесь применять стек
Hadoop, HBase, Hive для обработки больших данных, а также применять методы машинного обучения для задачи классификации пользователей по множеству классов.

Teacher Основной преподаватель:
Александр Петров,
CTO, E-Contenta



Map-Reduce, Hadoop, HDFS

Развертывание Hadoop кластера
в облаке AWS

HBase, Hive, Pig

Тонкости применения HBase на практике
Александр Петров,
CTO, E-Contenta

Использование SQL-like запросов в Hive
для запуска MapReduce

Семинар по оптимизации
MapReduce задач в Hadoop

Обработка 1Тб веб-логов и хранение в HBase

Визуализация данных с помощью Hue.
Работа в iPython

Создание мультиклассового классификатора

Машинное обучение.
Работа с библиотеками Python

Определение пола/возраста посетителя по его поведению в сети

Лабораторная работа

Развертывание
Hadoop-кластера
в облаке AWS
Lab

Lab

Lab

Lab

Lab

 
MODULE 2

Рекомендательные системы

Во втором модуле,  посвященном созданию рекомендательных систем и персонализации контента, упор будет сделан на работу с данными и машинное обучение в Apache Spark.

Teacher Преподаватель:
Григорий Сапунов,
Со-основатель и CTO в Intento,
Экс-глава разработки Яндекс.Новости



Неперсонализированные
рекомендательные системы

Лабораторная работа.
Неперсонализированная рекомендательная
система по фильмам

Content-based recommenders

Обработка текстов

Семинар
Практические методы анализа текстов: TF*IDF, vector model, кластеризация,
классификация

Мастер-класс потоковой обработки данных
при помощи Spark Streaming

Лабораторная работа. Content-based
рекомендательная система по онлайн-курсам

Коллаборативная фильтрация.
User-user, item-item

Лабораторная работа. Рекомендательная
система по фильмам с коллаборативной
фильтрацией с использованием user-user
и item-item подходов

Коллаборативная фильтрация.
Матричная факторизация и уменьшение
размерности

Лабораторная работа. Рекомендательная
система по фильмам с коллаборативной
фильтрацией с использованием SVD

Введение в Deep Learning

Алгоритмы

TF-IDF

Term Frequency-Inverse
Document Frequency


Алгоритм для определения
близости двух документов


Lab

Коэффициент корреляции
Пирсона

Используется для определения
связи двух случайных величин,
используется для задачи


Lab

SVD

Singular Value Decomposition


Сингулярное разложение —
это математический прием,
используемый для выявления
скрытых факторов и
уменьшения размерности
данных, в частности для
поиска других
похожих пользователей.


Lab

Где работают наши выпускники?

География выпускников

  • Преподавательский
    состав крут

    У меня был опыт обработки и хранения достаточно
    больших данных с помощью традиционных реляционных
    БД, но мне хотелось его расширить. Большие надежды
    я возлагал на изучение стеков Hadoop и Spark —
    и они оправдались. А еще очень полезным оказался
    разбор реальных кейсов: практика map-reduce
    на Hadoop, применение машинного обучения для задач классификации, разбор и практическая реализация
    различных алгоритмов для получения рекомендаций.
    Дмитрий Чуйко,
    ведущий инженер-программист
     
  • Сразу же начал использовать
    новые знания в работе

    Программа оптимально чередует теорию
    и практические занятия. Больше всего мне понравились преподаватели — ребята с большим опытом в сфере IT,
    которые рассказывали жизненные примеры,
    не ограничиваясь сухой теорией. Знания, полученные
    в процессе обучения, я уже применяю в работе. Благодаря
    курсу я составил план развития направления Big Data
    в нашей компании.
    Нодиржон Азамхужаев,
    ведущий программист
     
  • Нашел на программе
    новых коллег

    Программа не просто оправдала, но превзошла
    все мои ожидания. За короткое время мы изучили
    и теоретическую часть (алгоритмы, методы, подходы
    к проектированию) и практическую (экосистему
    Hadoop, различные фреймворки для machine learning
    и визуализации). Пока шла учеба, я также понял, в какую
    сторону хочу дальше развиваться, и в результате сменил
    работу. Со своими новыми коллегами я познакомился
    на программе.
    Роман Лебедев,
    software engineer
     
  • Big Data
    is Love!

    Это были 3 месяца, от которых испытываешь настоящее удовольствие. Представьте университет наоборот:
    преподаватели с практическим опытом, лабораторные
    на основе бизнес-кейсов, а у кластера бывает даун-тайм
    потому, что надо обновиться до последней версии Spark. Представьте, что обучение — это отпуск с впечатлениями, переживаниями и знаниями в остатке. Тогда курс
    «Специалист по Big Data» — это курортный роман,
    который остается в памяти навсегда.
    Евгений Шапиро,
    software architect
     
  • Делал лабы
    ночами напролет

    Я менеджер, отвечающий за разработку ПО, и сам
    не программировал много лет, поэтому программа была
    для меня достаточно сложной, я регулярно засиживался
    за полночь, делая лабораторные. Но результат все
    оправдал: теперь, глядя на задачи в области обработки
    данных, NLP, рекомендательных систем, машинного
    обучения, я хорошо понимаю технологии и квалификацию, которые нужны для их решения. Если у вас есть
    потребность в обработке данных или создания ПО
    в этой области — программа для вас!
    Владимир Попов,
    руководитель департамента
     
  • Меня ОЧЕНЬ
    вдохновили студенты
    и преподаватели-практики!

    Пока шла учеба, я занимался по 15-20 часов
    в неделю. Но занятия вызывали живой интерес,
    поэтому я смог справиться с такой нагрузкой. Больше
    всего меня вдохновили люди, с которыми я учился,
    и преподаватели-практики, которые на протяжении
    всего курса передавали свои знания и опыт.
    Как результат — есть желание продолжать развиваться
    в этой области и уверенность в своих силах.
    Дмитрий Лабазкин,
    IT-консультант
     

Карьера в Big Data

  •  

    ЕКАТЕРИНА
    ФРОЛОВИЧЕВА
    Сбербанк

    Мы хотим научиться
    предугадывать поведение
    клиентов и более точно позиционировать банк
    и его продукты для разных аудиторий, поэтому
    у нас много вакансий
    для специалистов
    по большим данным —
    как начального уровня,
    так и продвинутого.

     

    ВИТАЛИЙ
    САГИНОВ
    МТС

    Мы планируем
    использовать Big Data
    для прогнозирования
    поведения абонентов,
    борьбы с мошенничеством
    и разработки новых
    поисковых и веб-сервисов,
    поэтому наш штат
    технических специалистов
    будет расширяться.

  •  

    ЛУИЗА
    ИЗНАУРОВА
    Conde Nast

    Мы хотим
    знать о наших
    читателях все: от их
    психологического
    портрета до тайных
    увлечений и времени
    суток, когда они хотят
    посмотреть котиков.

     

    АНДРЕЙ
    СЕБРАНТ
    Яндекс

    Не пользоваться
    Big Data, живя
    в мире, полном
    цифровых устройств,
    это все равно
    что копать руками, а не лопатой, чертить за кульманом, а не
    в AutoCad и пересылать документы по факсу,
    а не по электронной
    почте.

  •  

    ПАВЕЛ
    ЛЕБЕДЕВ
    Superjob.ru

    Средняя
    зарплата mid-level
    специалиста — 140 т.р.,
    а верхний уровень —
    250 т.р., но чтобы
    выйти на такой
    уровень, нужно
    портфолио
    с успешными
    бизнес-
    проектами.

     

    АЛЕКСАНДР
    ПЕТРОВ
    R&D

    Мы владеем
    платформой,
    которая агрегирует
    данные больших
    поставщиков
    и обращает
    их в пользовательские
    профили. Выпускники
    программы научатся
    делать это на практике.

Для учебы вам потребуются

  • Умение программировать
    на языках высокого уровня,
    в частности на Python 2
  • Базовые знания
    Linux
  • Понимание принципов
    работы языка
    запросов SQL
  • Знание теории вероятностей
    и статистики в объеме
    1-2 семестров тех. вуза
  • Для тех, кто не уверен в своем уровне подготовки

    первая неделя программы состоит из специальных интенсивов по Python и Linux

Спасибо, мы с вами свяжемся!

Наверх