Создание пайплайнов обработки данных

Расписание занятий:
пн, ср, пт 19:00 - 22:00


Место проведения:
Офис компании МегаФон,
Оружейный пер. 41, Москва
11 марта - 27 апреля 2020

DATA ENGINEER 6.0

Мы используем файлы cookie, чтобы улучшить работу сайта, и показывать вам контент, согласно вашим интересам. Продолжая использовать сайт, вы соглашаетесь с условиями использования файлов cookie.
Да, соглашаюсь
Close
Данные должны быть доступными
А также полными, точными, своевременными, взаимосвязанными, непротиворечивыми, релевантными
За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. За доставку качественных данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer. Работодатели не могут закрыть вакансии на этих специалистов по полгода.
Что входит в программу
6 лаб
Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура.
10+ инструментов
С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.
21 занятие
С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия больше похожи на воркшопы, где преподаватель демонстрирует разные кейсы работы с инструментом, показывая подводные камни и best pratices.
Для кого эта программа?
-1-
Дата инженеры
У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.
-2-
Администраторы БД
Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch.
-3-
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.
Чему вы научитесь
В нашей программе есть три составляющих
Установка
Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.
Настройка
Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение.
Тюнинг
Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.
Проект 1. Lambda-архитектура
Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.
В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse.
Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.
Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.
Проект 2. Kappa-архитектура
В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.
Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
Антон Пилипенко
Data Engineer, Lamoda
Николай Марков
Senior Data Engineer, Aligned Research Group
Организатор конференции PyData и Data Science завтраков
Андрей Титов
Senior Spark Engineer, NVIDIA
Егор Матешук
Head of Analytics, Data Science and Data Engineering Department, MaximaTelecom
Павел Тарасов
Руководитель отдела машинного обучения, ЦИАН
Виктор Егоров
Senior DBA, Data Egret
Игорь Мосягин
R&D-разработчик, Lamoda
Вадим Мадисон
Руководитель разработки, М-Тех
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про построение пайплайнов, поэтому каждый участник поднимает свой собственный кластер на GCP, на котором может экспериментировать с инструментами, не мешая другим.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Стоимость 120 000 руб.
100 000 руб.

Возможна рассрочка

Скидка действует до 31 января 2020
Для учебы вам потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов. Он понадобится для работы со Spark и Airflow.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На программе вы будете использовать Apache Spark. Знание языка SQL может быть полезно для написания скриптов на SparkSQL. Помимо этого в нескольких лабах вам нужно будет писать небольшие SQL-запросы к ClickHouse.
Hadoop
На программе вы будете разворачивать свой Hadoop-кластер и работать с YARN, HDFS. Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.
Запись вебинара о программе
Отзывы
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь разворачивать свой Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
F.A.Q.
Почему программа столько стоит?
1. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть координатор, который помогает и отвечает на основную часть технических вопросов.
2. Есть команда, работающая над постоянным апгрейдом программы, создающая лабы, суперачивки, решения и чекеры для проверки заданий, чтобы изучаемые инструменты и получаемые вами знания были актуальны.
3. Все занятия транслируются в личном кабинете. Есть специальный человек, который занимается трансляцией занятия.
И труд всех этих людей оплачивается.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо.
Чем ваша программа отличается от других программ по data science?
1. Наша программа не про использование инструментов анализа данных, а про их конфигурирование и построение автоматизированных пайплайнов, которые доставляют данные до нужных пользователей внутри или вовне организации.
2. Это офлайновая программа (этим отличается от онлайн-курсов). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, мы с радостью вам ответим
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте свой вопрос и контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.