ДОСТУП К ВИДЕОЗАПИСЯМ И ТЕСТЫ
APACHE SPARK
НА PYTHON
RDD. Dataframes. Spark ML. Spark Streaming

МОДУЛЬ ПРОГРАММЫ
СПЕЦИАЛИСТ ПО БОЛЬШИМ ДАННЫМ
APACHE SPARK
НА PYTHON
RDD. Dataframes. Spark ML. Spark Streaming

МОДУЛЬ ПРОГРАММЫ
СПЕЦИАЛИСТ ПО БОЛЬШИМ ДАННЫМ

Онлайн-формат с видеозаписями и тестами:

- видеозаписи 6-ти занятий
- 2 теста для закрепления материала
- сертификат
- можно пройти в любое время в своем темпе
ПОЛУЧИТЬ ДОСТУП
Видеозаписи 6-ти занятий
прошлого потока
2 теста для закрепления
материала
Сертификат по итогам
тестов
ДЛЯ КОГО
Дата-инженеры
У вас есть опыт программирования, но не хватает знаний и умений в работе с Apache Spark? В этом курсе вы научитесь выполнять ETL-операции над RDD, Dataframes, использовать Spark Streaming.

Аналитики
Вы умеете анализировать данные, но требуется знание новых инструментов? Вы научитесь анализировать большие объемы данных при помощи Apache Spark, строить ML-модели в распределенной среде на кластере.

Аналитики
Вы занимаетесь развитием продукта или подразделения? В этом курсе вы получите погружение в Apache Spark, поймете юзкейсы использования этого инструмента, попробовав многие вещи своими руками.

ЧТО ВХОДИТ В МОДУЛЬ

RDD и Dataframes API
Как загружать данные в Spark и преобразовывать их в RDD или датафреймы, а также совершать операции и трансформации над ними. Узнаете об отличиях этих двух форматов и в каких случаях их стоит использовать, а также про узкие и широкие трансформации, broadcast-переменные и аккумуляторы.
Spark ML
Как тренировать модели машинного обучения в Spark и делать при помощи них прогнозы. Узнаете, как создавать автоматизированные пайплайны в Spark ML из различных трансформаций.
Spark GraphX
Как работать с графовыми данными в Spark при помощи специальной библиотеки GraphX. Узнаете о том, как правильно анализировать данные из соцсетей.
Spark Streaming
Как работать в режиме near real-time при помощи Spark Streaming, подключаясь к Kafka как источнику данных и производя агрегации над ними.
СТОИМОСТЬ МОДУЛЯ
24 000 руб.
Видеозаписи 6-ти трехчасовых занятий прошлого потока, 2 теста для закрепления материала и наш сертификат при верных ответах на 60% и более всех вопросов. Материалы занятий и доступ к видео остаются у вас навсегда.
Оставляйте заявку или звоните +74951288675, чтобы узнать подробности.
Сейчас платить не нужно. Оплата только после общения с менеджером.
ПРЕПОДАВАТЕЛЬ
Вы получаете доступ к видеозаписям занятий предыдущих потоков и преподавателем тогда выступил:
СЕРГЕЙ ГРИШАЕВ
Architect
Сбермаркет

ЖЕЛАТЕЛЬНО ЗНАТЬ

Для лучшего усвоения материала и прохождения тестов вам потребуется:
Умение программировать на Python
Это основной язык программирования, используемый на курсе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
Знание SQL
Знание языка SQL может быть полезно для написания приложений с использованием SparkSQL. А также это будет полезно, когда будете работать с внешними источниками данных — Cassandra, PostrgreSQL.
ЛИНЕЙНАЯ АЛГЕБРА
В курсе мы будем рассматривать продвинутые методы анализа данных, поэтому хорошо, если вы знаете основы статистики и линейной алгебры: среднее, дисперсия, вероятность, теорема Байеса, корреляция, ранг матрицы.