Data Engineer
Создание стабильных пайплайнов
обработки данных

Узнать больше

6 недель с ETL и пайплайнами

Программа Data Engineer предназначена для data scientist’ов и data-менеджеров, желающих углубиться непосредственно в добычу и обработку данных, построение стабильных пайплайнов, делающих данные доступными для всех пользователей внутри компании.

За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. Данные должны быть свежими, корректными, предобработанными, чтобы аналитики и data scientist'ы могли делать свою работу максимально эффективно. За доставку этих данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer.

Цель программы - научить вас создавать стабильные пайплайны обработки данных от сбора до их визуализации.

Learning by building. Обучение длится 6 недель, в течение которых вы выполняете один большой сквозной проект. Его суть заключается в том, чтобы собирать кликстрим с выданного вам сайта и направлять эти данные в два пайплайна:


  • для batch обработки,
  • для real-time обработки.

На протяжении всей программы каждый участник работает на своем облачном кластере, конфигурируя все необходимые инструменты для обработки данных. В рамках программы вы будете изучать и оттачивать навыки работы со следующими инструментами: Divolte, Kafka, ELK, Spark, Luigi, Sqoop, Druid, ClickHouse, Superset, Storm, что позволит в дальнейшем осваивать другие инструменты и настраивать любые пайплайны.

Историю возникновения и создания данной программы можно прочитать в нашем блоге на Хабре.

Даты проведения

13 ноября - 22 декабря 2017

ГРАФИК ЗАНЯТИЙ

Понедельник, среда, пятница,
с 19.00 до 22.00

Формат участия

Семинары в главном зале GVA
Москва, переулок Капранова, 3, 6-й этаж

Стоимость обучения:

100 000 i


Регистрация

Преподаватели

    • Антон Пилипенко, Big Data Engineer, Mail.ru Group: "На текущий момент большинство компаний научились хранить большое количество данных и строить на их основе разного рода модели. Однако, зачастую, вопросам эффективного хранения и обработки накопленных данных не уделяют достаточного внимания. Как следствие постоянно то тут, то там возникают вопросы о сайзинге, масштабировании приложений, потоковой и near-realtime обработке. Как показывает опыт, деление на Data Science и Data Engineer специалистов появилось
      не на пустом месте. Data Engineer - в первую очередь инженер, который хорошо понимает, что и зачем он делает, как оно устроено "под капотом" и какая архитектура "не взлетит". Данная программа позволит слушателям окунуться в суровый мир препроцессинга, пайплайнов и сопутсвующих тем."
    • Николай Марков, Senior Data Science Engineer, Aligned Research Group LLC: "Зачем заниматься Data Engineering'ом? Я считаю, что это логичный путь в сферу анализа данных для людей, которые умеют программировать и имеют опыт работы в индустрии разработки. Дело в том, что люди крайне редко бывают глубоко заинтересованы и в том, и в другом - одновременно серьезное знание математики и глубокий
      computer science в одном человеке не встречается практически никогда. Поэтому давайте оставим
      математикам то, что они делают лучше всего - исследования, модели и графики, а сами подумаем,
      что нужно сделать для того, чтобы из аналитической идеи получился готовый работающий продукт?"
    • Артём Москвин, Senior Software Engineer, Agoda: "Data engineer – это тот, кто делает всю ту бигдату, про которую вы слышали, возможной 🙂. Работу с данными можно условно разделить на 2 части: инжиниринг и исследования. Однако для того, чтобы сделать возможной вторую, нужно хорошо поработать над первой. В программе Data Engineer мы научим Вас строить пайплайны данных для их сбора, обработки и хранения. Эти пайплайны станут основой всего data processing в компании. Вы сможете обрабатывать данные как в real-time, так и в batch режиме, настраивать инструменты визуализации и ad-hoc queries для других пользователей, автоматизировать обучение моделей и многое другое."
    • Андрей Сутугин, Data Engineer, E-Contenta: "В мире анализа данных не все так радужно и красиво, как может показаться после решения "титаника" на kaggle. Для того, чтобы приступить непосредственно к самому анализу, необходимо проделать титаническую работу, но для того, чтобы "поставить на поток" сбор и трансформацию данных, требуется еще больше усилий. К сожалению, в мире "big data" нет "серебрянных пуль", и обилие инструментов и фреймворков может вскружить голову. Данная программа не решит все за вас и не даст 100% ответа, как сделать идеальную систему сбора, обработки и хранения данных, но она сможет дать отличный вектор развития, расскажет о лучших практиках построения data processing’а, которые вы сможете применить в своей компании."

Программа

 
MODULE 1


Lambda- и kappa-архитектура

Подключение Kafka к кликстриму и сохранение в Elasticsearch

Планировщики: Cron, Luigi, Airflow

Работа с окружением: virtualenv, docker, ansible

Command-line tools для data engineer

Работа с реляционными БД. Druid

Создание планового скрипта, токенизирующего данные в Elasticsearch

Конфигурирование Spark. Spark Submit

Построение ML-модели в Spark, отправляющей результаты прогноза в Druid

Работа с BI-инструментами. Superset

NoSQL базы данных. ClickHouse, Тарантул

Создание аналитического отчета в Superset поверх Druid

Real-time пайплайны. Storm

Дэшборды. Grafana, graphite

Визуализация на дэшборде результатов работы Storm в real-time

Системы анализа логов. Sentry

Enterprise-пайплайны

Мониторинг и troubleshooting пайплайна

Презентация проекта

Используемые решения

Lab

Lab

Lab

Lab

Lab

Lab

Lab

Для учебы вам потребуются

  • Базовые знания стэка Hadoop (Hadoop Streaming, HDFS, HBase, Hive, Spark)
  • Навыки работы с Python
  • Навыки работы в командной строке Linux
  • Базовый опыт построения алгоритмов машинного обучения
  • Каждому участнику необходимо будет самостоятельно зарегистрировать на Google Cloud Platform свой Free Trial аккаунт и поднять там кластер.

Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.

Спасибо, мы с вами свяжемся!

Наверх