Логотип GVA
 

Data Engineer 4.0
Создание стабильных пайплайнов
обработки данных

7 недель с ETL и пайплайнами

Программа Data Engineer предназначена для тех, кому по своей работе необходимо заниматься организацией и предобработкой данных для разных групп пользователей: конечные клиенты, аналитики, data scientists, менеджеры. Также программа подойдет для тех, кто занимается управлением командами и проектами в сфере анализа данных, чтобы понимать, какие инструменты можно использовать для каких задач.

За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. Данные должны быть свежими, корректными, предобработанными, чтобы аналитики и data scientist'ы могли делать свою работу максимально эффективно. За доставку этих данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer.

Программа учит:

  • строить и поддерживать пайплайны обработки данных,
  • выбирать правильный инструмент под задачу,
  • самостоятельно быстро и эффективно разбираться в документации.

Learning by building. Обучение длится 7 недель, в течение которых вы выполняете один большой сквозной проект. Проект заключается в том, чтобы помочь e-commerce компании стать data-driven, обеспечив данными разные группы пользователей:

  • организовать сбор кликстрима с сайта магазина,
  • сделать полнотекстовый поиск по товарам для конечного клиента,
  • создать витрины данных для аналитиков о пользовательском поведении и покупках, обновляемые по расписанию,
  • создать дэшборды для менеджеров с продуктовыми метриками, обновляющимися в real-time.

На протяжении всей программы каждый участник работает в команде на своем облачном кластере, конфигурируя все необходимые инструменты для обработки данных. В рамках программы вы будете изучать и оттачивать навыки работы со следующими инструментами: Kafka, ELK, PostgreSQL, Sphinx, Spark, Flume, Flink, Airflow, Druid, ClickHouse, Superset, Prometheus, Graphite, Grafana, что позволит в дальнейшем осваивать другие инструменты и настраивать любые пайплайны. Возможно онлайн участие.

Каждый этап проекта состоит из:

  • исследования и бенчмаркинга различных инструментов под задачу,
  • получения baseline-решения, когда инструменты уже решают задачу,
  • оптимизации и файн-тюнинга инструментов для более высокого качества.

Как выглядят практические задачи на программе, вы можете прочитать в нашем блоге на Хабре.

Возможно онлайн участие.

Даты проведения

25 февраля - 15 апреля 2019

ГРАФИК ЗАНЯТИЙ

Понедельник, среда, пятница,
с 19.00 до 22.00.

Возможно онлайн участие.

Место проведения

офис ПАО "МегаФон", Оружейный пер., д.41,
БЦ Оружейный, 3 этаж

Стоимость обучения:

120 000 i

100 000 руб. для early birds до 31 декабря 2018 г.

Возможна рассрочка


Преподаватели

    • Антон Пилипенко, Big Data Engineer, Mail.ru Group: "На текущий момент большинство компаний научились хранить большое количество данных и строить на их основе разного рода модели. Однако, зачастую, вопросам эффективного хранения и обработки накопленных данных не уделяют достаточного внимания. Как следствие постоянно то тут, то там возникают вопросы о сайзинге, масштабировании приложений, потоковой и near-realtime обработке. Как показывает опыт, деление на Data Science и Data Engineer специалистов появилось
      не на пустом месте. Data Engineer - в первую очередь инженер, который хорошо понимает, что и зачем он делает, как оно устроено "под капотом" и какая архитектура "не взлетит". Данная программа позволит слушателям окунуться в суровый мир препроцессинга, пайплайнов и сопутсвующих тем."
    • Николай Марков, Senior Data Science Engineer, Aligned Research Group LLC: "Зачем заниматься Data Engineering'ом? Я считаю, что это логичный путь в сферу анализа данных для людей, которые умеют программировать и имеют опыт работы в индустрии разработки. Дело в том, что люди крайне редко бывают глубоко заинтересованы и в том, и в другом - одновременно серьезное знание математики и глубокий
      computer science в одном человеке не встречается практически никогда. Поэтому давайте оставим
      математикам то, что они делают лучше всего - исследования, модели и графики, а сами подумаем,
      что нужно сделать для того, чтобы из аналитической идеи получился готовый работающий продукт?"
    • Артём Москвин, Senior Software Engineer, Agoda: "Data engineer – это тот, кто делает всю ту бигдату, про которую вы слышали, возможной 🙂. Работу с данными можно условно разделить на 2 части: инжиниринг и исследования. Однако для того, чтобы сделать возможной вторую, нужно хорошо поработать над первой. В программе Data Engineer мы научим Вас строить пайплайны данных для их сбора, обработки и хранения. Эти пайплайны станут основой всего data processing в компании. Вы сможете обрабатывать данные как в real-time, так и в batch режиме, настраивать инструменты визуализации и ad-hoc queries для других пользователей, автоматизировать обучение моделей и многое другое."
    • Андрей Сутугин, Data Engineer, E-Contenta: "В мире анализа данных не все так радужно и красиво, как может показаться после решения "титаника" на kaggle. Для того, чтобы приступить непосредственно к самому анализу, необходимо проделать титаническую работу, но для того, чтобы "поставить на поток" сбор и трансформацию данных, требуется еще больше усилий. К сожалению, в мире "big data" нет "серебрянных пуль", и обилие инструментов и фреймворков может вскружить голову. Данная программа не решит все за вас и не даст 100% ответа, как сделать идеальную систему сбора, обработки и хранения данных, но она сможет дать отличный вектор развития, расскажет о лучших практиках построения data processing’а, которые вы сможете применить в своей компании."

Технологический партнёр

  • Задания на программе стали более интересными и близкими
    к реальным потребностям бизнеса. Участники работают со своим
    небольшим сайтом e-commerce, настраивая на нем все изучаемые
    инструменты. Компания Битрикс-24 предоставляет вариант
    развертывания и администрирования такого сайта с уже
    имеющимися там товарами и ценами.

Партнеры мастер-классов

  • Мастер-класс по использованию Airflow
    и тестированию python-кода перед выводом в прод
  • Практикум по использованию базы данных ClickHouse
    для хранения и обработки веб-логов и мастер-класс
    по промышленному A/B-тестированию
  • Мастер-класс по построению дата-платформы с нуля
  • Мастер-класс по использованию
    базы данных Tarantool
  • Мастер-класс по использованию
    облачных пайплайнов в AWS

  • Мастер-класс по организационной
    структуре дата-подразделений

Программа

 
MODULE 1


Экосистема Hadoop: MapReduce, HDFS, YARN

Lambda- и kappa-архитектура

Подключение Kafka к кликстриму и сохранение в Elasticsearch

Планировщики: Cron, Azkaban, Airflow

Работа с окружением: virtualenv, docker, ansible

Command-line tools для data engineer

Работа с реляционными БД. Druid

Создание планового скрипта, токенизирующего данные в Elasticsearch

Конфигурирование Spark. Spark Submit

Построение ML-модели в Spark, отправляющей результаты прогноза в ClickHouse

Работа с BI-инструментами. Superset

NoSQL базы данных. ClickHouse, Тарантул

Создание аналитического отчета в Superset поверх Druid

Real-time пайплайны. Spark Streaming

Дэшборды. Grafana, graphite

Визуализация на дэшборде результатов работы Spark Streaming в real-time

Системы анализа логов. Sentry

Enterprise-пайплайны

Мониторинг и troubleshooting пайплайна

Презентация проекта

Используемые решения

Lab

Lab

Lab

Lab

Lab

Lab

Lab

Для учебы вам потребуются

  • Навыки работы с Python
  • Навыки работы в командной строке Linux
  • Базовый опыт построения алгоритмов машинного обучения
  • Каждому участнику необходимо будет самостоятельно зарегистрировать на Google Cloud Platform свой Free Trial аккаунт и поднять там кластер.

  •  
  •  
  •  
Наверх

Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.

Спасибо, мы с вами свяжемся!