Алгоритмы интеллектуальной обработки больших объемов данных

Длительность
  • 16 занятий
  • 70 ак. часов
Курс преподают
  • Всеволод Викулин Всеволод Викулин
  • Дмитрий Меркушов Дмитрий Меркушов
  • Дмитрий Парпулов Дмитрий Парпулов
  • Сергей Чепарухин Сергей Чепарухин
Получаемые навыки

– Освоите применение алгоритмов машинного обучения в контексте решения задач Data Mining. 
– Изучите методы построения, преобразования, отбора признаков, научитесь оценивать качество построенных моделей и визуализировать результаты анализа. 
– К теории прилагается практика: познакомитесь с современными библиотеками научных вычислений и выполните семестровый проект, близкий к задачам, решаемым в Mail.ru Group.

Контроль знаний

Чтобы стать востребованным специалистом, настоящим профессионалом — нужно учиться и практиковаться. Много учиться и практиковаться. 
Для успешной аттестации по данному курсу необходимо делать все вовремя и набрать минимум 60 баллов. Итоговый рейтинг по дисциплине — это сумма баллов, полученных за работу в течение семестра: выполнение домашних заданий, сдачу рубежных контролей и защиту итогового проекта. После прохождения всех рубежных контролей и сдачи итогового проекта баллы суммируются и распределяются следующим образом: 
– 0–59 неудовлетворительно, 
– 60–74 удовлетворительно, 
– 75–84 хорошо, 
– 85–100 отлично.

Требования

Для успешного освоения курса от вас потребуется только базовое владение аппаратом математического анализа, линейной алгебры и теории вероятностей.

Цель курса — изучите современные и классические способы решения задач Data Mining на основе алгоритмов машинного обучения.

Сервисы внутри Mail.ru Group генерируют огромные объемы данных. Без анализа это лишь массивы информации. Решение задач в рамках Data Mining позволяет извлечь из баз данных полезные знания и применить их в бизнесе. Эту информацию используют при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений. Именно Data Mining помогает прогнозировать стоимость недвижимости, советовать фильмы и принимать стратегические бизнес-решения. 

Смешанное занятие №1

Задачи Data Mining.

4 часа 2 часа СР

Смешанное занятие №2

Метрики классификации и регрессии. Метод ближайшего соседа.

4 часа 2 часа СР

Смешанное занятие №3

Линейные модели регрессии.

4 часа 2 часа СР

Смешанное занятие №4

Линейные модели классификации.

4 часа

Смешанное занятие №5

Метод опорных векторов.

4 часа

Рубежный контроль №1

Проверка домашнего задания

4 часа

Рубежный контроль №2

Коллоквиум

4 часа 2 часа СР

Смешанное занятие №6

Решающие деревья.

4 часа 2 часа СР

Смешанное занятие №7

Байесовские методы машинного обучения.

5 часа 2 часа СР

Смешанное занятие №8

Задача кластеризации.

4 часа 2 часа СР

Смешанное занятие №9

EM-алгоритм.

5 часа 2 часа СР

Смешанное занятие №10

Снижение размерности.

4 часа 2 часа СР

Смешанное занятие №11

Обработка естественного языка.

4 часа 2 часа СР

Рубежный контроль №3

Коллоквиум

4 часа 4 часа СР

Рубежный контроль №4

Защита семестрового проекта

4 часа 2 часа СР

Пересдача №1

Пересдача

5 часа


Также в первом семестре:
Введение в анализ данных

Познакомитесь с языком Python, разберете основные библиотеки для анализа и визуализации данных Pandas, numpy, Matplotlib и другие. Займетесь прикладным статистическим анализом данных, изучите основные понятия математической статистики, проверку статистических гипотез и работу с временными рядами. Кроме того, освоите язык SQL и сможете применять простые команды языка на практике.

Углубленное программирование на C/C++

– Освоите С++ на уровне upper-intermediate.
– Сориентируетесь в инструментарии разработчика С++.
– Изучите идиомы и best practices современного С++.

© Mail.ru Group, 2011–2020

Обратная связь

Присоединяйся:

Группа ВКонтакте
  • Дизайн:
    Nimax
  • Разработка:
    Лаборатория
    Технопарка
Версия портала - 5.43.1