20 сентября - 13 декабря 2022
СПЕЦИАЛИСТ
ПО БОЛЬШИМ ДАННЫМ

Комплексные знания технологий распределенной
обработки данных и работа со всеми значимыми
инструментами экосистемы больших данных
12 НЕДЕЛЬ
Занятия проходят 3 дня в неделю по 3 часа
ОНЛАЙН В ЗУМЕ
Можно задавать вопросы преподавателям
ПРЕПОДАВАТЕЛИ
Практикующие эксперты ведущих компаний – NVIDIA, Сбер, Яндекс, OZON


13 сентября - 21 октября 2022

СПЕЦИАЛИСТ
ПО БОЛЬШИМ ДАННЫМ

Комплексные знания технологий распределенной обработки данных и работа со всеми значимыми инструментами экосистемы больших данных
12 НЕДЕЛЬ
Занятия проходят 3 дня в неделю по 3 часа
ОНЛАЙН В ЗУМЕ
Можно задавать вопросы преподавателям
ПРЕПОДАВАТЕЛИ
Практикующие эксперты ведущих компаний – NVIDIA, Сбер, Яндекс, OZON
О программе
Путь героя
Инфраструктура
Входные требования
Полное погружение в мир больших данных за 12 недель
АЛГОРИТМЫ
Научитесь обрабатывать данные в Pandas, строить модели машинного обучения (логистическая регрессия, деревья, случайный лес) в Scikit-learn, анализировать текстовые данные, применять разные алгоритмы рекомендательных систем.

ТЕХНОЛОГИИ
Научитесь писать MapReduce-джобы на Python с использованием Hadoop Streaming, писать SQL-like запросы в Hive для решения аналитических задач, обращаться к данным на HDFS, анализировать данные в Apache Spark.

БИЗНЕС
Научитесь выбирать правильную метрику качества для вашей задачи, собирать требования перед стартом проекта и оценивать финансовый эффект от внедрения моделей.
Как проходит обучение
  1. Online в зуме
    Учитесь у лучших специалистов, общайтесь с преподавателями в режиме реального времени. Задать вопрос и разобрать релевантный кейс можно в прямом эфире
  2. Есть видеозаписи занятий
    Если нет возможности присутствовать на занятиях — изучайте материалы в удобном формате и комфортных условиях, без отрыва от работы в соответствии с вашим ритмом жизни
  3. Практика – лабораторные работы
    Каждую неделю вы решаете лабораторную работу с использованием реальных датасетов и на основе кейсов из реальной жизни.
  4. Проекты, которые лягут в основу вашего портфолио
    На протяжении 12 недель вы работаете над большими проектами, которые помогают вам объединить инструменты из разных разделов программы и отработать навыки, необходимые для реализации сложных многоуровневых проектов.
  1. Кластер
    Наша программа — про большие данные, поэтому на ней вы будете работать с облачным кластером, который мы администрируем, конфигурируем, поддерживаем.
  2. GitHub
    Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub.
  3. Личный кабинет
    В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же Будут проставляться все статусы ваших зачетов и ачивок.
  4. Slack
    Там мы поддерживаем общение — можно будет задавать вопросы координатору, а еще общаться между собой и помогать друг другу.
  1. Умение программировать на Python 3
    Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов.
  2. Базовые знания Linux
    В командной строке Linux вы тоже будете много времени проводить, работая с нашим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
  3. SQL
    На программе вы будете использовать такие инструменты как Hive и Apache Spark. Для работы с ними вам пригодится умение писать запросы на этом языке: селекты, джойны, фильтры, подзапросы.
  4. Статистика и линейная алгебра
    На программе мы будем рассматривать продвинутые методы анализа данных, поэтому хорошо, если вы знаете основы статистики и линейной алгебры: среднее, дисперсия, вероятность, теорема Байеса, корреляция, ранг матрицы.
Telegram-канал о наших программах, специальные предложения от партнеров и вакансии от проверенных компаний

НАШИ ВЫПУСКНИКИ

Частные лица
За это время более 900 человек из разных регионов России, стран СНГ, а также Латвии, Эстонии, Израиля, Польши, Великобритании, Германии, Нидерландов, ОАЭ и США прошли обучение на открытых программах.
Сотрудники компаний
Среди наших клиентов, регулярно направляющих своих сотрудников на открытые программы: Сбербанк, МегаФон, Райффайзен банк, Альфа-Банк, ТВЦ, S7, КРОК и др.
Корпоративные программы
Корпоративные программы разной длительности, для разной аудитории и с решением разных задач Newprolab проводил для СИБУРа, Газпром нефти, Газпромбанка, Сбербанка и банка BGL BNP Paribas в Люксембурге. Их прошли более500 человек.
VISA
ГазпромНефть
Сбербанк
Qiwi
Мегафон
Авито
S7
Ростелеком
КРОК
airbnb
zalando
Rambler&Co
ECONTENTA
Accenture
ТВЦ
Альфа-Банк
СИБУР
Райффазен Банк
Booking.com
Microsoft
LinguaLeo
@Mail.ru Group
М.Видео
МТС
ЧТО ВХОДИТ В ПРОГРАММУ
36 занятий
Преподаватели-практики, работающие в ведущих компаниях, проводят занятия в прямом эфире, отвечают на вопросы и разбирают релевантные кейсы. Видеозаписи занятий доступны в личном кабинете.
9 лаб
Каждую неделю вы решаете лабораторную работу с использованием реальных датасетов и на основе кейсов из реальной жизни. Дополнительно вы можете решать суперачивки.
2 проекта
На протяжении 6 недель вы работаете над большими проектами, которые помогают вам объединить инструменты из разных разделов программы и отработать навыки, необходимые для реализации сложных многоуровневых проектов.
Часть 1. Построение DMP-системы
Проект: прогнозирование пола и возрастной категории пользователей в интернете по их логам.

  • Лаба 1. Деплой кластера в облаке и запуск MapReduce
    По итогам только первой недели обучения вы научитесь разворачивать Hadoop-кластер в облаке, используя дистрибутив HortonWorks. Сможете написать свой первый MapReduce-джоб, используя Hadoop Streaming и Python.

  • Лаба 2. Классификация пользователей по интересам в Hive
    Используя простые эвристики, вам нужно будет классифицировать пользователей по интересам (автомобилисты, предприниматели, домохозяйки и др.). Для выполнения лабы необходимо будет использовать Hive.

  • Лаба 3. Прогнозирование оттока клиентов банка
    Используя обезличенные данные клиентов банка, вам нужно будет предсказать вероятность ухода из банка каждого из них в ближайшие несколько месяцев.

  • Лаба 4. Похожесть текстов вакансий
    В этой лабе вам нужно будет найти похожие тексты вакансий. Суперачивка — участие в соревновании на Kaggle по определению эмоциональной окраски отзывов в интернете.
Часть 2. Разработка рекомендательной системы
Проект: рекомендательная система товаров в интернет-магазине

  • Лаба 5. Неперсонализированные рек. системы
    Задача — построить различного рода топы для рекомендации фильмов пользователям, по которым еще нет никаких данных.

  • Лаба 6. Коллаборативная фильтрация
    Используя матричные разложения, разработать рекомендации, учитывающие жанр, стиль и другие неявные факторы фильма.

  • Лаба 7. Content-based рек. системы
    Вам нужно будет, рассчитывая похожесть описаний онлайн-курсов, выявить те, которые можно рекомендовать в дополнение пользователям.

  • Лаба 8. Рекомендации фильмов по телесмотрению
    Используя данные по просмотру телепередач разных пользователей, сделать рекомендации фильмов по подписке.

  • Лаба 9. A/B-тестирование
    Используя данные и модель прогнозирования оттока лабораторной работы 4, необходимо проэмулировать настоящий АБ тест по удержанию клиентов банка и получить значимое улучшение метрик в тестовой группе.
МОДУЛИ И ТЕМЫ ПРОГРАММЫ
1. Hadoop
  • HDFS
  • MapReduce
  • Presto/Trino
  • Hive
    2. Machine Learning
    • Введение в ML
    • Практический ML
    • ML алгоритмы
    • ML на текстах
    • Сентимент-анализ
    • Ансамбли в ML
    • Введение в Deep Learning
      3. NLP
      • Введение в NLP
      • Парсинг сайтов
        и расчет похожести
      • ML на текстах
      • Сентимент-анализ
      • Тематическое моделирование
        4. Рекомендательные системы
        • Введение в РС
        • Content-based
        • SVD, BMF
        • Оценка качества РС
          5. Apache Spark
          • Введение в Spark
          • Dataframes
          • Spark ML: пайплайны
          • Практический ML на Spark
          • Spark Advanced
          • Spark Streaming
            6. Data Science проекты
            • Процесс анализа
              данных и анализ требований
            • Выбор метрик и финансовый эффект
            • A/B-тестирование
            • Мастер-класс + сторителлинг
              и визуализация данных
              7. Time Series
              • Введение в анализ временных рядов
              • Обработка данных
                для временных рядов
                ВАРИАНТЫ И СТОИМОСТЬ ПРОГРАММЫ
                видео занятий и тесты
                88 000 руб.
                видео занятий и лабы
                118 000 руб.
                • Полная стоимость не учитывает скидку по промокоду – не забудьте указать в заявке!
                • Для физических лиц возможна рассрочка.
                • Для корпоративных клиентов – специальные условия при регистрации групп из более чем 3 участников.
                • Для выпускников наших программ и их друзей предусмотрены скидки.
                • За ваше обучение может заплатить ваш работодатель – обратитесь с таким запросом к вашему руководителю

                Оставляйте заявку или звоните +7 495 128 86 75, чтобы узнать подробности!
                УЧИТЕСЬ У ЛУЧШИХ ПРАКТИКОВ

                Q&A ПО ПРОГРАММЕ ПРОШЛОГО ПОТОКА

                ПАРТНЕР ПО ИНФРАСТРУКТУРЕ
                Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.

                ЧАСТЫЕ ВОПРОСЫ

                НАШИ ПРИНЦИПЫ ОБУЧЕНИЯ
                Мы создаем все условия для того, чтобы максимально приблизить опыт участников к реальным условиям работы (Project Based Learning). Поэтому основу наших программ составляют лабы (лабораторные работы) – системные большие практические задания, которые максимально приближены к реальным задачам специалистов по работе с данными.

                • Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент, необходимый для решения задач, а не самоцель.
                • Возможность сразу же применять полученные знания в работе и своих проектах.

                На пути будут встречаться сложности, которые вы преодолеете и откроете в себе новые качества, а также получите незабываемый эмоциональный опыт! Вы пройдете настоящий путь героя!
                какова длительность программ
                Наши программы длятся от 5 до 12 недель – они максимально интенсивны и полностью погружают в работу с данными.
                в каком формате проходят программы
                Основной формат наших программ – синхронные онлайн-занятия с преподавателями в Zoom, самостоятельное выполнение лаб и тестов вне занятий онлайн. Занятия 2 раза в неделю по 3 часа и возможность задать вопросы преподавателю «здесь и сейчас» и получить ответы.

                В среднем, на прохождение программы нужно закладывать от 15 часов в неделю – на занятия и выполнение лаб.
                КОМУ подойдут наши программы
                Наши программы рассчитаны на специалистов среднего и высокого уровня в области работы с данными – разработчиков, дата-инженеров, аналитиков, дата-сайентистов и менеджеров.

                В зависимости от программы, входные требования могут отличаться. Практически во всех программах требуются уверенные навыки программирования на Python/Scala/Java, знание SQL и Linux.
                инфраструктура программ
                Все презентации, jupyter-ноутбуки, лабы и мануалы мы выкладываем в закрытый репозиторий на GitHub. Для выполнения лаб всем участникам мы даем доступ к облачному кластеру. Проверка лаб проводится автоматически чекерами в личном кабинете – такой формат дает возможность быстро проверять лабы и в случае неуспеха внести правки и проверить снова. В каждой программе для участников также создаются чаты – удобное пространство для общения и обсуждения.
                кто будет преподавать
                Наши преподаватели – только действующие эксперты-практики по работе с данными из российских и международных компаний, которые могут объяснять сложные вещи простыми словами
                роль координаторов
                Для того, чтобы прохождение программы было максимально комфортным и интересным, во всех программах есть координаторы. Они отвечают на технические вопросы по лабам и помогают советами как «старшие товарищи» – координаторы сами проходили программы и знают о возможных сложностях и их преодолении на собственном опыте.
                ЧЕМ НАША ПРОГРАММА ОТЛИЧАЕТСЯ ОТ ДРУГИХ ПРОГРАММ НА РЫНКЕ
                1. Наша программа не про использование стандартных инструментов анализа данных, а про работу именно с большими данными с использованием Apache Spark.
                2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
                рассрочка и специальные условия
                • Для физических лиц возможна рассрочка
                • Для корпоративных клиентов – специальные условия при регистрации групп из более чем 3 участников
                • Для выпускников наших программ и их друзей предусмотрены скидки
                • Также есть промокоды, которые вы сможете найти в наших социальных сетях и у наших партнеров. Промокоды не суммируются с другими предложениями и скидками
                НАШИ ПРИНЦИПЫ ОБУЧЕНИЯ
                Мы создаем все условия для того, чтобы максимально приблизить опыт участников к реальным условиям работы (Project Based Learning). Поэтому основу наших программ составляют лабы (лабораторные работы) – системные большие практические задания, которые максимально приближены к реальным задачам специалистов по работе с данными.

                • Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент, необходимый для решения задач, а не самоцель.
                • Возможность сразу же применять полученные знания в работе и своих проектах.

                На пути будут встречаться сложности, которые вы преодолеете и откроете в себе новые качества, а также получите незабываемый эмоциональный опыт! Вы пройдете настоящий путь героя!
                какова длительность программ
                Наши программы длятся от 5 до 12 недель – они максимально интенсивны и полностью погружают в работу с данными.
                в каком формате проходят программы
                Основной формат наших программ – синхронные онлайн-занятия с преподавателями в Zoom, самостоятельное выполнение лаб и тестов вне занятий онлайн. Занятия 2 раза в неделю по 3 часа и возможность задать вопросы преподавателю «здесь и сейчас» и получить ответы.

                В среднем, на прохождение программы нужно закладывать от 15 часов в неделю – на занятия и выполнение лаб.
                КОМУ подойдут наши программы
                Наши программы рассчитаны на специалистов среднего и высокого уровня в области работы с данными – разработчиков, дата-инженеров, аналитиков, дата-сайентистов и менеджеров.

                В зависимости от программы, входные требования могут отличаться. Практически во всех программах требуются уверенные навыки программирования на Python/Scala/Java, знание SQL и Linux.
                инфраструктура программ
                Все презентации, jupyter-ноутбуки, лабы и мануалы мы выкладываем в закрытый репозиторий на GitHub. Для выполнения лаб всем участникам мы даем доступ к облачному кластеру. Проверка лаб проводится автоматически чекерами в личном кабинете – такой формат дает возможность быстро проверять лабы и в случае неуспеха внести правки и проверить снова. В каждой программе для участников также создаются чаты – удобное пространство для общения и обсуждения.
                кто будет преподавать
                Наши преподаватели – только действующие эксперты-практики по работе с данными из российских и международных компаний, которые могут объяснять сложные вещи простыми словами
                роль координаторов
                Для того, чтобы прохождение программы было максимально комфортным и интересным, во всех программах есть координаторы. Они отвечают на технические вопросы по лабам и помогают советами как «старшие товарищи» – координаторы сами проходили программы и знают о возможных сложностях и их преодолении на собственном опыте.
                ЧЕМ НАША ПРОГРАММА ОТЛИЧАЕТСЯ ОТ ДРУГИХ ПРОГРАММ НА РЫНКЕ
                1. Наша программа не про использование стандартных инструментов анализа данных, а про работу именно с большими данными с использованием Apache Spark.
                2. Мы используем механики и образовательные инструменты, которые позволяют вам приобрести знания и навыки с максимальной вероятностью. По статистике, доля успешно завершивших обычный онлайн-курс редко превышает 25%. На нашей программе, вне зависимости в офлайне она проходит или в онлайне — стабильно свыше 70% участников получают по итогам сертификат.
                рассрочка и специальные условия
                • Для физических лиц возможна рассрочка
                • Для корпоративных клиентов – специальные условия при регистрации групп из более чем 3 участников
                • Для выпускников наших программ и их друзей предусмотрены скидки
                • Также есть промокоды, которые вы сможете найти в наших социальных сетях и у наших партнеров. Промокоды не суммируются с другими предложениями и скидками
                НУЖНА ПОМОЩЬ В ВЫБОРЕ ПРОГРАММЫ?
                Оставьте ваши контакты — и мы вас проконсультируем и ответим на все вопросы
                Отправляя данную форму, вы даете свое согласие на обработку персональных данных