даты потока: 16 октября – 8 декабря

DATA ENGINEER 13.0 ▶️ видео-интро

Онлайн-программа с занятиями в зуме поможет разобраться с практиками и инструментами дата-инжиниринга раз и навсегда
Сможете работать дата-инженером
После этой программы вы реально сможете работать дата-инженером и быстро расти, так как будете хорошо разбираться не только в теории, но и иметь практический опыт решения характерных задач DE
Полноценное погружение
Программа направлена на практику в виде лабораторных работ (лаб), которые максимально приближены к реальным задачам, с которыми работают дата-инженеры
Работа
в кластере
Все лабы реализуются в облачном провайдере. Одна из первых задач программы -- развернуть и настроить свою инфраструктуру для выполнения лаборатных. Это сложно, но и интересно и навсегда подружит вас и документацию.
Структурирование знаний
Даже если вы уже практикующий дата-инженер, эта программа поможет вам структурировать ваши знания и познакомиться с новыми инструментами и подходами.
Данные должны быть доступными, точными, своевременными, непротиворечивыми, релевантными
В том или ином виде дата-инжиниринг сейчас есть уже во всех компаниях – от самых небольших и до крупных гигантов. Поэтому, устойчивый, надёжный и, как следствие, предсказуемый механизм сбора и обработки данных нужен большинству компаний.

Специалисты по выстраиванию инфраструктуры для таких процессов и разбирающиеся в архитектуре хранилищ данных – это востребованная специальность в современном дата-мире.
КАК УСТРОЕНА
ПРОГРАММА
Эта программа – большое погружение в практику. Она требовательна к тому, чтобы вы были готовы погружаться и тратить много времени на выполнение лаб. Для полноценного прохождения программы лабораторные работы надо будет выполнять в срок, что на практике означает существенную загрузку на протяжении всей программы.
6 ЛАБ
За два месяца вы выполните 6 практических лабораторных работы, каждая из которых использует разные инструменты про которые вам будут рассказывать в лекциях. Эти лабораторные работы критически важны для понимания возможностей и ограничений использования инструментов, про которые вам будут рассказывать в лекциях.
Логика работы DE
В течение курса мы будем анализировать, что уже освоено, заполняя карту компетенций. Инструменты и окружение будут обновляться, но общая логика и подобное картирование позволит вам создать целостную картину об используемых технологиях и практиках. Мы не только расскажем вам про инструменты используемые в курсе, но и предложим альтернативы наиболее популярным из них
10+ инструментов
Каждая лабораторная базируется на использовании ключевых инструментов и фреймворков. Опытные лекторы из индустрии на занятиях покажут, как этим всем пользоваться.

Часть инструментов вы сможете проработать глубоко: Kafka, Airflow, ClickHouse, Spark, Redis, Docker. Эти инструменты входят в лабораторные работы и по ним будут углубленные занятия, так как они часто применяются на практике.

В программу также входят обзорные лекции и задания по практике с другими распространёнными инструментами: Apache Flink, Grafana, dbt, Kubernetes и др. Некоторые из них входят в дополнительные задания, а некоторые представляют универсальные инструменты, используемые и в других областях.

ДЛЯ КОГО ЭТА ПРОГРАММА

АНАЛИТИКИ

ДАННЫХ

Аналитика данных всё больше перестаёт быть изолированной от инфраструктуры обработки данных. Вам будет полезно пройти эту программу, чтобы лучше понимать общий цикл работы с данными. Даже если вы не планируете переходить в область DE, понимание общих принципов расширит ваши возможности как специалиста и поможет проще находить общий язык с дата-инженерами. Также вы сможете понять, каково это – работать в более инженерной роли без серьёзных карьерных потрясений.

Бэкенд-разработчики

Как у бэкенд-разработчика, у вас уже есть необходимый инженерный опыт, и данная программа поможет понять, чем занимается дата-инженеры, и либо сменить область работы, либо узнать больше о разработке высоконагруженных дата-приложений. Таким образом, программа будет интересна, если у вас есть опыт работы в нагруженном проекте и вы хотите узнать больше про задачи обработки данных.

Техлиды

и Менеджеры

Эта программа поможет менеджерам команды дата-аналитиков лучше ориентироваться в актуальных инструментах и технологиях и понять, в какую сторону развивать направление внутри компании. Понимание особенностей инструментов позволит также более точно оценивать сроки и лучше понимать требования бизнеса. Также для тех, кто давно не имел дела с данными, или же давно используете другой стек технологий, эта программа поможет освежить в памяти современные особенности инструментов и практик DE.
КОМУ ПРОГРАММА НЕ ПОДОЙДЕТ
Для этой задачи эта программа слишком техническая и упирается на инженерные практики, которые могут показаться перебором для такого запроса. Вам больше подойдёт наша другая программа:

Вы хотите познакомиться с областью Data Engineering, но не хотите делать лабораторные работы и настраивать инструменты

Хотя ничего не останавливает от прохождения программы как слушатель и только просматривать лекции, такой формат существенно уменьшает ценность вашего участия.

Вы не хотите писать код или боитесь терминала

Курс очень практический и построен исходя из того, что почти во всех лабораторных работах понадобится править конфиги на машинах и писать код в том или ином виде. Если такие перспективы вас отпугивают, скорее всего, этот курс будет слишком тяжело пройти.

У вас нет свободного времени ближайшие 2 месяца или высокая нагрузка на работе

В зависимости от вашего начального уровня, выполнение лаб и участие в вебинарах может отнимать 10-20 часов в неделю и требовать вашего внимательного погружения. Если у вас сейчас напряжённые рабочие процессы или другие обязательства, подумайте о прохождении следующего потока и предварительно обеспечьте себе возможность уделять программе достаточно времени в течение 8 недель.
ПРИНЦИПЫ ПРОГРАММЫ
Чтобы обучение было эффективным и интересным, мы используем андрагогику
Материал ДЛЯ РЕШЕНИЯ

КОНКРЕТНЫХ ЗАДАЧ

Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.

Возможность сразу же применять знания

Уже на второй неделе вы научитесь разворачивать Apache Kafka, отправлять в эту систему сообщения и обрабатывать их и ознакомитесь с тем как писать пайплайны на Apache Airflow: двумя популярными инструментами в области обработки данных

Самостоятельность в решении

Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
ОТЗЫВЫ УЧАСТНИКОВ
ЛАБОРАТОРНЫЕ РАБОТЫ

Лаба 1

Подготовка инфраструктуры
В первой лабораторной работе вы настроите собственный учебный кластер из двух нод, который будет являться вашим тестовым стендом для всего курса. На этой простой задаче вы освоитесь с тем, как работает наша автоматическая проверка и разберётесь как настроить необходимые доступы, чтобы в дальнейших лабораторных работах эта часть уже не отвлекала. Прокачаются базовые практики devops и получится познакомиться поближе с компонентами дата-инфраструктуры.

Лаба 2

Batch-
обработка
Вторая лабораторная работа направлена на то, чтобы организовать пакетную обработку данных в хранилище. Вы получите данные из Kafka с помощью landing-схемы в ClickHouse, а затем, используя Airflow, будете считать агрегаты и перекладывать данные внутри ClickHouse. Вы напишете свой DAG для обработки и научитесь ходить в консоль всех этих инструментов. Здесь понадобятся базовые знание Python и надо не бояться работать с командной строкой.

Лаба 3 (СУПЕРАЧИВКА)

Потоковая обработка данных
В рамках этой лабораторной работы рассмотим возможность обработки данных "на лету". Так как за термином "потоковая обработка" часто скрывается "батч-обработка просто с очень маленькими батчами", она во многом опирается на предыдущую, но некоторые новые инструменты надо будет подключить. В этой лабе заложена вариативность используемых инструментов, и у вас будет возможность познакомиться с несколькими решениями реализации потоковой обработки в зависимости от технических условий задачи.

Лаба 4

Data-
сервис
В этой лабораторной работе нам надо будет написать свой небольшой сервис на Python (мы покажем как), и добавить две системы для дашбордов: одну с бизнес-метриками и одну для операционных задач. В рамках программы мы разберёмся, в чём разница, и на каких технологиях это часто делают, и таким образом примерим на себя шляпу инженера разработки аналитики.

Лаба 5

Сервис персонализации
В отличие от предыдущих лаб, здесь у вам предстоит использовать очень грязный источник данных, который надо будет использовать как дополнительный для обогащения данных о событиях пользователей e-commerce портала. В лабораторной работе надо будет рассчитать витрину для маркетинговой аналитики по результатам прошедшей распродажи и изрядно повозиться с расчётом агрегатов.

Лаба 6

Хранилище
для BI-дашборда
Шестая лабораторная работа отличается более открытым техзаданием и позволяет составить впечатление о том, как может выглядеть ваша работа при коммуникации с людьми, далёкими от мира обработки данных. В этой лабораторной работе у вас будет постоянно пополняющийся внешний источник данных, для которого необходимо будет спроектировать хранилище и реализовать BI-дашборд с ответами на вопросы бизнес-аналитиков.
ПРЕПОДАВАТЕЛИ
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
ПРЕПОДАВАТЕЛИ
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами

  • Егор Матешук
    Технический директор
    ГПМ Дата

  • Игорь Мосягин
    Data Infrastructure Engineer
    Klarna

  • Сергей Гришаев
    Senior Data Engineer
    Сбермаркет

  • Николай Марков
    Principal Architect
    Aligned Research Group
CЕРТИФИКАТ
ОБ УСПЕШНОМ ПРОХОЖДЕНИИ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые четыре лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши знания и навыки для дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
CЕРТИФИКАТ
ОБ УСПЕШНОМ ПРОХОЖДЕНИИ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые четыре лабы из шести в срок.

Наш сертификат на английском языке и он подтверждает ваши знания и навыки для дата-инжиниринга.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
СТОИМОСТЬ УЧАСТИЯ
9 недель, 18 живых занятий с экспертами из индустрии в зуме, реальный результат в конце, поддержка и обратная связь. Записи занятий и материалы остаются у вас навсегда.
99 000 руб
BASICS
99 000 руб
Оставляйте заявку или звоните +74951288675, чтобы узнать подробности.
Сейчас платить не нужно. Оплата только после общения с менеджером.
Есть рассрочка на 2 месяца от нас и от Тинькофф.
Можно оплатить иностранной картой.
Поможем устроить обучение за счет вашего работодателя.
ВХОДНЫЕ ТРЕБОВАНИЯ
ЗНАНИЕ Python
Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов. Он понадобится для работы со Spark и Airflow.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже знаете, как заходить на удалённый сервер по ssh, умеете настраивать авторизацию по ssh-ключи и владеете базовыми командами для перемещения по директориям, созданию и редактированию файлов, и знаете как выйти из vim.

ЗНАНИЕ

SQL

На программе вы будете использовать Apache Spark. Знание языка SQL может быть полезно для написания скриптов на SparkSQL. Помимо этого, в нескольких лабах вам нужно будет писать небольшие SQL-запросы к ClickHouse.
ЗНАКОМСТВО С Hadoop
На программе вы будете разворачивать свой Hadoop-кластер и работать с YARN, HDFS. Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.

ЧАСТЫЕ ВОПРОСЫ

ПАРТНЕР ПО ИНФРАСТРУКТУРЕ
Экосистема облачных сервисов от VK Cloud Solutions помогает строить надежные IT-системы. Входящие в VK Cloud Solutions решения — виртуальные сервера, объектное хранилище, управляемые базы данных, кластеры Kubernetes и многое другое — позволяют запускать приложения и сервисы, работать с большими объемами данных и решать другие задачи крупного, среднего и малого бизнеса.