Создание пайплайнов обработки данных
г. Москва, Оружейный пер., д.41, офис ПАО "МегаФон"

Расписание занятий: пн, ср, пт 19:00 - 22:00
25 февраля — 15 апреля 2019

DATA ENGINEER 4.0

Данные должны быть доступными
А также полными, точными, своевременными, взаимосвязанными, непротиворечивыми, релевантными
За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. За доставку качественных данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer. Работодатели не могут закрыть вакансии на этих специалистов по полгода.

6 лаб
Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура.
10+ инструментов
С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.
21 занятие
С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия больше похожи на воркшопы, где преподаватель демонстрирует разные кейсы работы с инструментом, показывая подводные камни и best pratices.
Для кого эта программа?
-1-
Дата инженеры
У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.
-2-
Администраторы БД
Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch.
-3-
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.
Чему вы научитесь
В нашей программе есть три составляющих
Установка
Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.
Настройка
Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение.
Тюнинг
Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.
Проект 1. Lambda-архитектура
Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.
В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse.
Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.
Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.
Проект 2. Kappa-архитектура
В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.
Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.
Наши преподаватели — только практики из индустрии, умеющие объяснять сложные вещи простыми словами
Антон Пилипенко
Big Data Engineer, Mail.ru Group
Николай Марков
Senior Data Engineer, Aligned Research Group
Организатор конференции PyData и Data Science завтраков
Андрей Титов
Senior Spark Engineer, NVIDIA
Егор Матешук
Senior Data Engineer, MaximaTelecom
Павел Тарасов
Руководитель отдела машинного обучения, ЦИАН
Николай Рекубратский
Data Engineering Team Lead, XING
Игорь Мосягин
R&D-разработчик, Lamoda
Вадим Мадисон
Руководитель разработки, М-Тех
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про построение пайплайнов, поэтому каждый участник поднимает свой собственный кластер на GCP, на котором может экспериментировать с инструментами, не мешая другим.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Стоимость для early birds
120 000 руб. 110 000 руб.
Скидка действует до 1 февраля 2019.
Возможна рассрочка
Для учебы вам потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов. Он понадобится для работы со Spark и Airflow.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
Hadoop*
На программе вы будете разворачивать свой Hadoop-кластер и работать с YARN, HDFS. Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.

*При необходимости дадим доступ к подготовительным занятиям по Hadoop после подписания договора.
SQL
На программе вы будете использовать Apache Spark. Знание языка SQL может быть полезно для написания скриптов на SparkSQL. Помимо этого в нескольких лабах вам нужно будет писать небольшие SQL-запросы к ClickHouse.
Аккаунт на Google Cloud Platform
Каждому участнику необходимо будет самостоятельно зарегистрировать на Google Cloud Platform свой Free Trial аккаунт, в рамках которого будет идти дальнейшая работа на программе.
Отзывы
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже только после первой недели вы научитесь разворачивать свой Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
F.A.Q.
Почему программа такая дорогая?
1. Все занятия транслируются в личном кабинете. Есть специальный человек, который на занятии занимается трансляцией. Следит, чтобы все было видно и вовремя.
2. Наши преподаватели — практики из индустрии, работающие дата инженерами и руководителями разработки. Помимо них есть также координатор, который помогает и отвечает на основную часть технических вопросов.
3. Это офлайновая программа с площадкой в центре Москвы.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо.
Чем ваша программа отличается от других программ по data science?
1. Наша программа не про использование инструментов анализа данных, а про их конфигурирование и построение автоматизированных пайплайнов, которые доставляют данные до нужных пользователей внутри или вовне организации.
2. Это офлайновая программа (этим отличается от онлайн-курсов). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, мы с радостью вам ответим
Оставьте свой вопрос и контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Оставьте контакты ниже
Мы с вами свяжемся
Отправляя данную форму, вы подтверждаете свое согласие на обработку персональных данных, которая осуществляется в целях предоставления дополнительной информации об образовательных услугах, а также для записи на программы. Мы гарантируем конфиденциальность получаемой нами информации.
Made on
Tilda