Bag of words. Word2vec. Topic Modeling

Расписание занятий (GMT+3):
- вт, чт 19:00–22:00,
- сб 11:00–14:00

Онлайн-доступ к программе для удаленных участников
5–8 октября, 17–22 октября 2019

Модуль "NLP"

This website uses cookies to improve your user experience and to show you content related to your preferences. If you continue browsing, we consider that you agree to their use. More information.
Ok, don't show again
Close
Что входит в модуль
Это один из модулей флагманской программы "Специалист по большим данным"
2 лабы
Каждую неделю вам нужно будет решить лабораторную работу и суперачивку
5 занятий
Оффлайн с трансляциями в прямом эфире и видеозаписями в личном кабинете
Для кого этот модуль?
-1-
Аналитики
Вы умеете анализировать структурированные данные, но требуется умение работать с текстами? Вы научитесь анализировать анализировать текстовые данные, представлять их в векторном виде и строить на их основе модели машинного обучения.
-2-
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На этом модуле вы получите погружение в обработку текстовых данных, узнаете о потенциальных возможностях и ограничениях.
Чему вы научитесь
В модуле есть четыре составляющих
Основы NLP
Научитесь анализировать текстовые данные и представлять их в векторном виде, используя TF-IDF. Узнаете об основных задачах и библиотеках, имеющихся в сфере text-mining, узнаете, чем отличается стемминг и лемматизация, и для чего нужны стоп-слова.
Парсинг и оценка похожести
Научитесь парсить данные со страниц интернета, используя библиотеки Requests, Urllib, Beautifulsoup. Узнаете, как пользоваться API сервисов и облегчать для себя задачу парсинг, как оценить похожесть двух текстов при помощи косинусной близости.
ML на текстовых данных
Научитесь работать с текстовыми данными и строить поверх них модели машинного обучения, решая, например, задачи оценки тональности интернет-отзыва. Узнаете о том, чем word2vec лучше стандартных подходов, научитесь работать с библиотеками NLTK, Gensim.
Тематическое моделирование
Научитесь определять тематику заданных текстов, используя алгоритмы тематического моделирования (topic modeling), представленных в библиотеке Gensim. Узнаете об оценке качества решения таких задач.
Лабы этого модуля
В этой лабе вам нужно будет найти похожие тексты вакансий. Суперачивка — участие в соревновании на Kaggle по определению эмоциональной окраски отзывов в интернете.
Вам нужно будет, рассчитывая похожесть описаний онлайн-курсов, выявить те, которые можно рекомендовать в дополнение пользователям.
Преподаватель этого модуля

Владимир Опанасенко
Исполнительный директор,
Газпромбанк
Инфраструктура модуля
То, с чем вы будете работать каждый день
Кластер
Этот модуль посвящен работе с текстовыми данными, поэтому на нем вы будете работать с нашим JupyterHub, который обеспечен всеми необходимыми библиотеками и вычислительными ресурсами.
GitHub
Все презентации, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время модуля происходит в Slack — удобный мессенджер для команд. Там можно задавать вопросы во время трансляции, общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Партнер по инфраструктуре
Стоимость модуля
€500
Для коллег/ друзей выпускников 20% скидка
Это не онлайн-курс
Это онлайн-доступ к офлайновой программе
В аудитории во время занятия находится преподаватель и офлайн-участники. Вы можете задавать вопросы и получать ответы в режиме реального времени, как будто вы находитесь вместе с ними.

Во всем остальном вы получаете все то же самое: доступ к кластеру, материалам, решаете лабы, работаете над проектами, объединяетесь в команды, общаетесь вне занятий в Slack.
Для учебы вам потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на модуле. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая с нашим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На модуле вы будете использовать такой инструмент как Hive. Для работы с ним вам пригодится умение писать запросы на этом языке: селекты, джойны, фильтры, подзапросы.
Линейная алгебра и машинное обучение
На модуле мы будем рассматривать продвинутые методы анализа данных, поэтому хорошо, если вы знаете основы статистики и линейной алгебры: среднее, дисперсия, вероятность, теорема Байеса, корреляция, ранг матрицы, а также основные алгоритмы машинного обучения.
1
2
3
4
5
6
7
NLP
ML
Интересны другие модули?
Возьмите всю программу целиком
Отзывы
Где работают наши выпускники
Здесь они живут и работают

Наши принципы обучения
Чтобы обучение было эффективным и интересным, мы используем андрагогику
-1-
Материал ориентирован на конкретные задачи
Наша цель — научить вас решать задачи из реальной жизни, а не покрыть список тем. Теория — это инструмент необходимый для решения задач, а не самоцель.
-2-
Возможность сразу же применять знания
Уже после первой недели вы научитесь работать с текстовыми данными и сможете использовать эти знания для пилотного проекта на работе.
-3-
Самостоятельность в решении
Наши задания сформулированы так, что вам часто нужно будет что-то загуглить. После программы у вас будет свой багаж из качественных ресурсов.
F.A.Q.
Могу ли я взять другие модули?
Да, вы можете набрать любое количество модулей программы. Они не пересекаются, поскольку являются частью одной длинной 12-недельной программы. При этом с какого-то момента может оказаться, что дешевле будет взять программу целиком.
Сколько времени потребуется для обучения?
Занятия проходят 3 раза в неделю по 3 часа. Это 9 часов. Плюс 4-10 часов потребуется на решение лабораторных работ в зависимости от задания и вашего изначального уровня подготовки.
Я смогу пройти модуль, если совсем новичок и никогда не программировал?
Да, но будет сложно. Среди наших выпускников есть те, кто познакомился с программированием непосредственно на программе. Было непросто. Приходилось больше тратить время на задания, испытывать сложности. Но если есть высокая мотивация, то это все выполнимо. Также у нас есть отдельный подготовительный модуль с основами Python и Linux.
Чем ваша программа отличается от других курсов по data science?
1. Наша программа не просто про анализ данных, а про анализ больших данных. И такой программы больше нет. Анализ больших данных требует умения работы со специализированными инструментами и наличия инфраструктуры. Все практические задания выполняются на кластере, который мы администрируем и поддерживаем.
2. Это модуль офлайновой программы (этим отличается от онлайн-курсов, хотя по стоимости модуль сопоставим). На офлайн-программах, как правило, обучение строится эффективнее: есть поддерживающая среда из сокурсников, преподавателей, координатора. По статистике, доля успешно завершивших онлайн-курс редко превышает 25%. На нашей программе свыше 70% получают по итогам сертификат.
Остались вопросы?
Задайте их, и мы с радостью вам ответим
Оставьте контакты в форме ниже
Мы с вами свяжемся
Оставьте контакты в форме ниже
Мы с вами свяжемся
Оставьте контакты в форме ниже
Мы с вами свяжемся
Оставьте контакты в форме ниже
Мы все пришлем
Оставьте свой вопрос и контакты в форме ниже
Мы с вами свяжемся