MapReduce. HDFS. HBase. Hive

Расписание занятий (GMT+3):
- вт, чт 19:00–22:00,
- сб 11:00–14:00

Онлайн-доступ к программе для удаленных участников
24 сентября – 3 октября

Модуль "Hadoop"

This website uses cookies to improve your user experience and to show you content related to your preferences. If you continue browsing, we consider that you agree to their use. More information.
Ok, don't show again
Close
Что входит в модуль
Это один из модулей флагманской программы "Специалист по большим данным"
3 лабы
Каждую неделю вам нужно будет решить лабораторную работу и суперачивку
4 занятия
Оффлайн с трансляциями в прямом эфире и видеозаписями в личном кабинете
Для кого этот модуль?
-1-
Разработчики
У вас есть опыт программирования, но не хватает знаний и умений в работе с Hadoop? На этом модуле вы научитесь использовать HDFS, HBase и Hive, писать MapReduce-джобы.
-2-
Аналитики
Вы умеете анализировать данные, но требуется знание новых инструментов? Уже после первой недели вы научитесь разворачивать Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На этом модуле вы получите погружение в экосистему Hadoop, поймете юзкейсы использования этих инструментов, попробовав многие вещи своими руками.
Чему вы научитесь
В модуле есть четыре составляющих
MapReduce
Научитесь писать MapReduce-джобы, используя Python. Узнаете об эффективных техниках и приемах, использования MapReduce: Map-only джобы, комбайнеры, распределенный кэш.
HDFS
Научитесь работать с распределенным хранилищем HDFS, загружая из него и записывая в него данные. Узнаете об антипаттернах его использования, и ролях NameNode, Secondary NameNode, DataNode.
HBase
Научитесь правильно создавать схему хранения данных в HBase, считывать и записывать данные, используя в том числе библиотеку HappyBase. Узнаете об антипаттернах хранения данных в HBase.
Hive
Научитесь писать MapReduce-джобы, используя SQL-подобный язык в Hive. Узнаете, как использовать в Hive UDF-функции, написанные на Python.
Лабы этого модуля
По итогам только первой недели обучения вы научитесь разворачивать Hadoop-кластер в облаке, используя дистрибутив HortonWorks. Сможете написать свой первый MapReduce-джоб, используя Hadoop Streaming и Python.
В этой лабе вам нужно будет отфильтровать логи, расположенные на HDFS (распределенная файловая система) и положить их в таблицу в HBase (колоночная база данных), используя map-only джоб.
Используя простые эвристики, вам нужно будет классифицировать пользователей по интересам (автомобилисты, предприниматели, домохозяйки и др.). В этот раз необходимо будет использовать Hive.
Преподаватели этого модуля

Антон Пилипенко
Data Engineer,
Lamoda
Кирилл Данилюк
Engineering Manager,
Self-Driving Car, Yandex
Инфраструктура модуля
То, с чем вы будете работать каждый день
Кластер
Этот модуль посвящен Hadoop, поэтому на нем вы будете работать с нашим Hadoop-кластером, который мы администрируем, конфигурируем, поддерживаем.
GitHub
Все презентации, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время модуля происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Стоимость модуля
€400
Для коллег/ друзей выпускников 20% скидка
Это не онлайн-курс
Это онлайн-доступ к офлайновой программе
В аудитории во время занятия находится преподаватель и офлайн-участники. Вы можете задавать вопросы и получать ответы в режиме реального времени, как будто вы находитесь вместе с ними.

Во всем остальном вы получаете все то же самое: доступ к кластеру, материалам, решаете лабы, работаете над проектами, объединяетесь в команды, общаетесь вне занятий в Slack.
Для учебы вам потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на модуле. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая с нашим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На модуле вы будете использовать такой инструмент как Hive. Для работы с ним вам пригодится умение писать запросы на этом языке: селекты, джойны, фильтры, подзапросы.
1
2
3
4
5
6
7
NLP
ML
Интересны другие модули?
Возьмите всю программу целиком
Отзывы
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже только после первой недели вы научитесь разворачивать свой Hadoop-кластер в облаке и сможете использовать эти знания для пилотного проекта на работе.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
F.A.Q.
Могу ли я взять другие модули?
Да, вы можете набрать любое количество модулей программы. Они не пересекаются, поскольку являются частью одной длинной 12-недельной программы. При этом с какого-то момента может оказаться, что дешевле будет взять программу целиком.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти программу, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо. Также у нас есть отдельный подготовительный модуль с основами Python и Linux.
Чем ваша программа отличается от других курсов по data science?
1. Наша программа не просто про анализ данных, а про анализ больших данных. И такой программы больше нет. Анализ больших данных требует умения работы со специализированными инструментами и наличия инфраструктуры. Все практические задания выполняются на кластере, который мы администрируем и поддерживаем.
2. Это модуль офлайновой программы (этим отличается от онлайн-курсов, хотя по стоимости модуль сопоставим). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, и мы с радостью вам ответим
Оставьте контакты в форме ниже
Мы с вами свяжемся
Оставьте контакты в форме ниже
Мы с вами свяжемся
Оставьте контакты в форме ниже
Мы с вами свяжемся
Оставьте контакты в форме ниже
Мы все пришлем
Оставьте свой вопрос и контакты в форме ниже
Мы с вами свяжемся