Обратная связь
Студенты по завершении данного курса получат знания в области задач машинного обучения, узнают, как решается одна из самых сложных проблем искусственного интеллекта, понимание потребностей человека и поиск подходящего решения.
Неуспевающие студенты будут отчисляться.
Трое лучших студентов получат предложение о стажировке в Поиске@Mail.Ru.
Все студенты, успешно сдавшие экзамены, лабораторные и курсовые работы, получат сертификат об окончании курса. В случае необходимости, мы так же можем написать для вас рекомендательные письма при устройстве на работу.
На протяжении всего семестра за определенные виды работ, выполняемые студентами, выставляются баллы. Итоговый рейтинг по дисциплине представляет собой сумму баллов, полученных студентом за прохождение контрольных точек – рубежных контролей, домашних заданий, защиты итогового проекта. Важное условие — своевременное выполнение работ.
Для успешной аттестации по данному курсу студентам необходимо набрать пороговый рейтинг — 50 баллов.
При пересчете баллов студенты могут получить итоговую оценку: 0–49 неудовлетворительно, 50–74 удовлетворительно, 75–89 хорошо, 90-100 отлично.
Цель курса — в нашем курсе мы хотим рассказать об основных методах, применяемых при создании поисковых систем. Некоторые из них – хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат.
Все пользователи интернета имеют опыт работы с поисковыми системами, регулярно вводят туда запросы и получают результаты. Поисковые системы стали настолько привычными, что уже сложно себе представить, что когда-то их не было, а качество современного поиска воспринимается как данность, хотя ещё пятнадцать лет назад всё было совершенно иначе.
Однако, современная поисковая система является сложнейшим программно-аппаратным комплексом, создателям которого пришлось решить огромное количество практических проблем, начиная от большого объёма обрабатываемых данных и кончая нюансами восприятия человеком поисковой выдачи.
Авторы курса – создатели поисковой системы на портале Mail.Ru – обладают большим опытом разработки систем искусственного интеллекта, многие имеют опыт преподавания. Мы хотим показать студентам, насколько интересно и увлекательно делать поисковую систему, решать задачи обработки текстов на естественном языке; хотим показать основные методы и средства решения таких задач.
Лекция №1
Введение в информационный поиск.
Определение понятия информационного поиска. Обзор курса. Обзор существующих поисковых систем
4 часа
Смешанное занятие №1
Особенности web-поиска. Архитектура поискового робота
Исторический обзор систем веб-поиска. Документы в сети Интернет, ссылочный граф.Архитектура поискового робота.
Семинар: определение навигационной обвязки
4 часа 4 часа СР
Смешанное занятие №2
Планировщик поискового робота. Семинар: извлечение урловых признаков.
4 часа 2 часа СР
Смешанное занятие №4
Методы оптимизации обратного индекса
Методы оптимизации обратного индекса
4 часа 2 часа СР
Смешанное занятие №5
Удаление навигационной обвязки. Поиск дубликатов документов.
Удаление навигационной обвязки. Поиск дубликатов документов.
4 часа 2 часа СР
Смешанное занятие №6
Приемы для поиска дубликатов в больших коллекциях.
Приемы для поиска дубликатов в больших коллекциях.
4 часа 4 часа СР
Рубежный контроль №1
Коллоквиум по лекциям 1-7. Для допуска нужно набрать не меньше 30 баллов за выполнение домашних работ и работу на семинарах.
4 часа 2 часа СР
Смешанное занятие №7
Очистка поискового индекса: антипорн.
Семинар: построение текстового классификатора порно.
4 часа 4 часа СР
Смешанное занятие №8
Очистка поискового индекса: антиспам
Очистка поискового индекса: антиспам. Семинар: спам-признаки документов.
4 часа 4 часа СР
Смешанное занятие №9
Микроразметка. Детектор концов предложений
Микроразметка. Детектор концов предложений. Семинар: выделение признаков конца предложения.
4 часа 4 часа СР
Смешанное занятие №10
Построение снипетов. Семинар: построение классификатора.
4 часа 4 часа СР
Смешанное занятие №12
Тематические классификаторы запросов. Саджесты. Переформулировки
Тематические классификаторы запросов. Саджесты. Переформулировки
4 часа 4 часа СР
Рубежный контроль №2
Коллоквиум по лекциям 8-13. Для допуска нужно набрать не меньше 30 баллов за выполнение соответствующих домашних работ и работу на семинарах.
4 часа