Обратная связь
– Освоите применение алгоритмов машинного обучения в контексте решения задач Data Mining.
– Изучите методы построения, преобразования, отбора признаков, научитесь оценивать качество построенных моделей и визуализировать результаты анализа.
– К теории прилагается практика: познакомитесь с современными библиотеками научных вычислений и выполните семестровый проект, близкий к задачам, решаемым в Mail.ru Group.
Чтобы стать востребованным специалистом, настоящим профессионалом — нужно учиться и практиковаться. Много учиться и практиковаться.
Для успешной аттестации по данному курсу необходимо делать все вовремя и набрать минимум 60 баллов. Итоговый рейтинг по дисциплине — это сумма баллов, полученных за работу в течение семестра: выполнение домашних заданий, сдачу рубежных контролей и защиту итогового проекта. После прохождения всех рубежных контролей и сдачи итогового проекта баллы суммируются и распределяются следующим образом:
– 0–59 неудовлетворительно,
– 60–74 удовлетворительно,
– 75–84 хорошо,
– 85–100 отлично.
Для успешного освоения курса от вас потребуется только базовое владение аппаратом математического анализа, линейной алгебры и теории вероятностей.
Цель курса — изучите современные и классические способы решения задач Data Mining на основе алгоритмов машинного обучения.
Сервисы внутри Mail.ru Group генерируют огромные объемы данных. Без анализа это лишь массивы информации. Решение задач в рамках Data Mining позволяет извлечь из баз данных полезные знания и применить их в бизнесе. Эту информацию используют при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений. Именно Data Mining помогает прогнозировать стоимость недвижимости, советовать фильмы и принимать стратегические бизнес-решения.
Смешанное занятие №1
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Машинное обучение. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
4 часа 2 часа СР
Смешанное занятие №2
Обзор основных метрик задач классификации и регрессии. Метрическая гипотеза, метрические алгоритмы. Метод ближайшего соседа для классификации и регрессии. Виды расстояний. Проклятие размерности.
4 часа 2 часа СР
Смешанное занятие №3
Метод минимизации эмпирического риска. Градиентные методы оптимизации первого порядка. Стохастические методы оптимизации. Модель линейной регрессии. Точное решение. Правила обновления весов для стохастического спуска. Регуляризация линейной регрессии.
4 часа 2 часа СР
Смешанное занятие №4
Линейные модели классификации.
Метод максимума правдоподобия. Пример применения для оценки параметров одномерного нормального распределения. Логистические потери и их связь с правдоподобием распределения Бернулли. Модель логистической регрессии. Правила обновления весов для стохастического спуска. Регуляризация логистической регрессии.
4 часа
Смешанное занятие №5
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
4 часа
Смешанное занятие №7
Логичические алгоритмы. Деревья принятия решений для задач регрессии и классификации. Критерии расщепления для классификации и регрессии.
4 часа 2 часа СР
Смешанное занятие №9
Современные модели градиентного бустинга
Современные модели градиентного бустинга
4 часа 2 часа СР
Смешанное занятие №10
Задача снижения размерности. Сингулярное разложение. Метод главных компонент. Задача отбора признаков.
4 часа 2 часа СР
Смешанное занятие №11
Байесовские методы машинного обучения.
Условная вероятность и теорема Байеса. Оптимальный байесовский классификатор. Нормальное распределение. Методы восстановления плотности. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод.
5 часа 2 часа СР
Смешанное занятие №12
Теоретическая часть. Постановка задачи кластеризации. Алгоритм K-means и его модификации. Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Алгоритм DBSCAN. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand index, silhouette.
Функции расстояния. Критерии качества кластеризации.
4 часа 2 часа СР
Рубежный контроль №3
Сдача ДЗ 5 и коллоквиум по задачам классификации и регрессии
4 часа 4 часа СР