Создание пайплайнов обработки данных
г. Москва, Оружейный пер., д.41, офис ПАО "МегаФон"

Расписание: пн, ср, пт 19:00-22:00
23 сентября – 11 ноября

DATA ENGINEER 5.0

Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Да, соглашаюсь
Close
Данные должны быть доступными
А также полными, точными, своевременными, взаимосвязанными, непротиворечивыми, релевантными
За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. За доставку качественных данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer. Вы сами знаете, что на закрытие этой вакансии порой можно потратить полгода.

6 лаб
Почти каждую неделю вашим сотрудникам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура.
10+ инструментов
С частью инструментов они смогут поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью смогут просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.
21 занятие
С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия больше похожи на воркшопы, где преподаватель демонстрирует разные кейсы работы с инструментом, показывая подводные камни и best pratices.
Для кого эта программа?
-1-
Дата инженеры
У ваших сотрудников уже есть опыт работы с одними инструментами и хочется, чтобы они получили опыт работы с другими? Они смогут это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.
-2-
Администраторы БД
У вас есть те, кто умеет работать с классическими реляционными БД и хочется, чтобы они получили опыт работы с другими инструментами хранения данных? На программе они смогут поработать с HDFS, ClickHouse, Kafka, ElasticSearch.
-3-
Менеджеры
Ваши коллеги занимаются развитием продукта или подразделения? На программе они получат понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.
Чему научатся ваши сотрудники
В нашей программе есть три составляющих
Установка
Они научатся самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.
Настройка
Научатся подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение, зная, как и что устроено изнутри.
Тюнинг
Научатся улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком. Причем в большинстве случаев это самостоятельная работа, тренирующая навык разбираться в новых вещах.
Проект 1. Lambda-архитектура
Перед стартом проекта им нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.
В этой лабе коллегам нужно будет организовать batch-layer в lambda-архитектуре. Они получат данные из Kafka, положат их на HDFS. Используя Airflow, будут планово перекладывать предобработанные данные в ClickHouse.
Используя Spark Streaming, им нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.
Первый проект завершается подключением одного из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.
Проект 2. Kappa-архитектура
В рамках этого проекта вашим сотрудникам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.
Второй проект завершается тем, что они подключат BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования долгой batch-обработки.
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
Антон Пилипенко
Старший backend разработчик, haut.ai
Николай Марков
Senior Data Engineer, Aligned Research Group
Организатор конференции PyData и Data Science завтраков
Андрей Титов
Senior Spark Engineer, NVIDIA
Егор Матешук
Senior Data Engineer, MaximaTelecom
Павел Тарасов
Руководитель отдела машинного обучения, ЦИАН
Виктор Егоров
Senior DBA, Data Egret
Игорь Мосягин
R&D-разработчик, Lamoda
Вадим Мадисон
Руководитель разработки, М-Тех
Инфраструктура программы
То, с чем ваши сотрудники будут работать каждый день
Кластер
Наша программа — про построение пайплайнов, поэтому каждый участник поднимает свой собственный кластер на GCP, на котором может экспериментировать с инструментами, не мешая другим.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем они смогут проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Стоимость 120 000 руб.
100 000 руб.

Скидка действительна до 1 июля 2019.

Для учебы членам вашей команды потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на программе. Хорошо, если они уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов. Он понадобится для работы со Spark и Airflow.
Базовые знания Linux
В командной строке Linux они тоже будут много времени проводить, работая со своим кластером. Хорошо, если они уже будут уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
Hadoop*
На программе они будут разворачивать свой Hadoop-кластер и работать с YARN, HDFS. Хорошо, если они уже будут знакомы с этими инструментами и будут понимать для чего они нужны.

*При необходимости дадим доступ к подготовительным занятиям по Hadoop после подписания договора.
SQL
На программе вы будете использовать Apache Spark. Знание языка SQL может быть полезно для написания скриптов на SparkSQL. Помимо этого в нескольких лабах вам нужно будет писать небольшие SQL-запросы к ClickHouse.
Аккаунт на Google Cloud Platform
Каждому участнику необходимо будет самостоятельно зарегистрировать на Google Cloud Platform свой Free Trial аккаунт, в рамках которого будет идти дальнейшая работа на программе.
Отзывы
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить ваших сотрудников решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели они научатся разворачивать свой Hadoop-кластер в облаке и смогут использовать эти знания для пилотного проекта на работе.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что им нужно будет что-то загуглить. После программы у них будет свой багаж из качественных ресурсов, а также умение разбираться в новых вещах самостоятельно.
F.A.Q.
Почему программа столько стоит?
1. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть координатор, который помогает и отвечает на основную часть технических вопросов.
2. Есть команда, работающая над постоянным апгрейдом программы, создающая лабы, суперачивки, решения и чекеры для проверки заданий, чтобы изучаемые инструменты и получаемые вами знания были актуальны.
3. Все занятия транслируются в личном кабинете. Есть специальный человек, который занимается трансляцией занятия.
И труд всех этих людей оплачивается.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо.
Чем ваша программа отличается от других программ по data science?
1. Наша программа не про использование инструментов анализа данных, а про их конфигурирование и построение автоматизированных пайплайнов, которые доставляют данные до нужных пользователей внутри или вовне организации.
2. Это офлайновая программа (этим отличается от онлайн-курсов). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, мы с радостью вам ответим
Оставьте свой вопрос и контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.