Обратная связь
Разберетесь в сфере задач машинного обучения, освоите основные методы и средства решения таких задач, узнаете, как решается одна из самых сложных проблем искусственного интеллекта — понимание потребностей человека и поиск подходящего решения.
Итоговый рейтинг по дисциплине представляет собой сумму баллов, полученных за прохождение контрольных точек: рубежных контролей, домашних заданий, защиты итогового проекта. Важное условие — своевременное выполнение работ.
Для успешной аттестации по данному курсу необходимо набрать 30 баллов. При пересчете в оценки баллы распределяются следующим образом:
– 0−9 «неудовлетворительно»,
– 10−24 «удовлетворительно»,
– 25−39 «хорошо»,
– 40−100 «отлично».
Цель курса — изучите основные методики создания поисковых систем, и научитесь нетривиально применять при проектировании современный математический аппарат.
Все пользователи интернета имеют опыт работы с поисковыми системами, регулярно вводят туда запросы и получают результаты. Поисковые системы стали настолько привычными, что уже сложно себе представить, что когда-то их не было, а качество современного поиска воспринимается как данность, хотя ещё пятнадцать лет назад все было совершенно иначе.
Современная поисковая система является сложнейшим программно-аппаратным комплексом, создателям которого пришлось решить огромное количество практических проблем, начиная от большого объема обрабатываемых данных и кончая нюансами восприятия человеком поисковой выдачи.
Авторы курса — создатели поисковой системы на портале Mail.Ru — обладают опытом разработки систем искусственного интеллекта. Увидите, насколько увлекательно делать поисковую систему и решать задачи обработки текстов на естественном языке.
Лекция №1
Введение в информационный поиск. Общая архитектура и особенности
Определение понятия информационного поиска. Обзор курса. Обзор существующих поисковых систем. Архитектура поискового робота.
4 часа
Смешанное занятие №2
Методы оптимизации обратного индекса
Методы оптимизации обратного индекса
4 часа 2 часа СР
Смешанное занятие №3
Фильтрация. Антиспам и антипорн
Очистка поискового индекса: антиспам. Семинар: спам-признаки документов.
4 часа 4 часа СР
Смешанное занятие №4
Планировщик поискового робота. Семинар: извлечение урловых признаков.
4 часа 2 часа СР
Рубежный контроль №1
Коллоквиум по лекциям 1-7. Для допуска нужно набрать не меньше 35 баллов за выполнение домашних работ и работу на семинарах.
4 часа 2 часа СР
Смешанное занятие №7
Тематические классификаторы запросов. Саджесты. Переформулировки
Тематические классификаторы запросов. Саджесты. Переформулировки
4 часа 4 часа СР
Смешанное занятие №8
Приемы для поиска дубликатов в больших коллекциях.
4 часа 4 часа СР
Смешанное занятие №9
Лингвистика в поиске. Основы обработки текстов
Исторический обзор систем веб-поиска. Документы в сети Интернет, ссылочный граф.Архитектура поискового робота.
Семинар: определение навигационной обвязки
4 часа 4 часа СР
Смешанное занятие №10
Классические текстовые модели ранжирования
Удаление навигационной обвязки. Поиск дубликатов документов.
4 часа 2 часа СР
Смешанное занятие №11
Микроразметка. Детектор концов предложений. Семинар: выделение признаков конца предложения.
4 часа 4 часа СР
Смешанное занятие №12
Построение снипетов. Семинар: построение классификатора.
4 часа 4 часа СР
Рубежный контроль №2
Коллоквиум по лекциям 8-13. Для допуска нужно набрать не меньше 30 баллов за выполнение соответствующих домашних работ и работу на семинарах.
4 часа