Обратная связь
Существенная часть курса посвящена применению алгоритмов машинного обучения в контексте решения задач Data Mining. Кроме того, студенты изучат методы построения, преобразования и отбора признаков, научатся оценивать качество построенных моделей и визуализировать результаты анализа. Для закрепления полученных теоретических знаний и ознакомления с современными библиотеками научных вычислений студентам будет предложено выполнить семестровый проект, близкий к задачам обработки данных, решаемым в Mail.Ru Group.
На протяжении всего семестра за определенные виды работ, выполняемые студентами, выставляются баллы. Итоговый рейтинг по дисциплине представляет собой сумму баллов, полученных студентом за прохождение контрольных точек – рубежных контролей, домашних заданий, защиты итогового проекта. Важное условие — своевременное выполнение работ. Для успешной аттестации по данному курсу студентам необходимо набрать пороговый рейтинг — 50 баллов. При пересчете баллов студенты могут получить итоговую оценку: 0–49 неудовлетворительно, 50–79 удовлетворительно, 80–94 хорошо, 95–100 отлично (сдача итогового проекта+все РК).
Цель курса — изучение студентами как классических, так и современных подходов к решению задач Data Mining, основанных на алгоритмах машинного обучения.
Объемы данных, ежедневно генерируемые сервисами крупной интернет компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.
Смешанное занятие №1
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Машинное обучение. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
4 часа 2 часа СР
Смешанное занятие №2
Метрики классификации и регрессии. Метод ближайшего соседа.
Обзор основных метрик задач классификации и регрессии. Метрическая гипотеза, метрические алгоритмы. Метод ближайшего соседа для классификации и регрессии. Виды расстояний. Проклятие размерности.
4 часа 2 часа СР
Смешанное занятие №3
Метод минимизации эмпирического риска. Градиентные методы оптимизации первого порядка. Стохастические методы оптимизации. Модель линейной регрессии. Точное решение. Правила обновления весов для стохастического спуска. Регуляризация линейной регрессии.
4 часа 2 часа СР
Смешанное занятие №4
Линейные модели классификации.
Метод максимума правдоподобия. Пример применения для оценки параметров одномерного нормального распределения. Логистические потери и их связь с правдоподобием распределения Бернулли. Модель логистической регрессии. Правила обновления весов для стохастического спуска. Регуляризация логистической регрессии.
4 часа
Смешанное занятие №5
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
4 часа
Смешанное занятие №6
Логичические алгоритмы. Деревья принятия решений для задач регрессии и классификации. Критерии расщепления для классификации и регрессии.
4 часа 2 часа СР
Смешанное занятие №7
Байесовские методы машинного обучения.
Условная вероятность и теорема Байеса. Оптимальный байесовский классификатор. Нормальное распределение. Методы восстановления плотности. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод.
5 часа 2 часа СР
Смешанное занятие №8
Теоретическая часть. Постановка задачи кластеризации. Алгоритм K-means и его модификации. Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Алгоритм DBSCAN. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand index, silhouette.
Функции расстояния. Критерии качества кластеризации.
4 часа 2 часа СР
Смешанное занятие №9
Задачи со скрытыми переменными. Разделение смеси распределений. EM-алгоритм. Связь с kmeans.
5 часа 2 часа СР
Смешанное занятие №10
Задача снижения размерности. Сингулярное разложение. Метод главных компонент. Задача отбора признаков.
4 часа 2 часа СР
Смешанное занятие №11
Обработка естественного языка.
Задача обработки естественного языка.
4 часа 2 часа СР
Рубежный контроль №2
Сдача ДЗ 5 и коллоквиум по задачам классификации и регрессии
4 часа 4 часа СР