Обратная связь
Познакомитесь с языком Python, разберете основные библиотеки для анализа и визуализации данных Pandas, numpy, Matplotlib и другие. Займетесь прикладным статистическим анализом данных, изучите основные понятия математической статистики, проверку статистических гипотез и работу с временными рядами. Кроме того, освоите язык SQL и сможете применять простые команды языка на практике.
Во время семестра предстоит выполнить домашнее задание в формате code contest и нескольких тестов, написать свой собственный парсер, а также подготовить мини-проект по анализу данных. При пересчете в оценки баллы распределяются следующим образом:
– 0−49 «неудовлетворительно»,
– 50−70 «удовлетворительно»,
– 71−85 «хорошо»,
– 86−100 «отлично».
Для успешного прохождения курса необходимо знание одного из языков программирования и теории вероятностей.
Цель курса — разберетесь, как и над чем работает аналитик, и на практике освоите рабочие инструменты, языки и библиотеки.
Задачи, связанные с анализом данных, возникают практически в любой индустрии: от инвестиций и управления финансами до прогнозирования спроса на товар в ритейле, от разработки маркетинговых стратегий до анализа поведения и успеваемости в образовательных курсах, от строительства нефтеперерабатывающих заводов до цепочек поставок в промышленности. Анализ данных помогает компаниям формировать и проверять продуктовые гипотезы, создавать сервисы, приносящие прибыль владельцу и удовольствие клиенту.
Смешанное занятие №1
Введение в курс. Основы программирования на языке Python: переменные, изменяемые, неизменяемые типы данных.
4 часа 2 часа СР
Смешанное занятие №3
Тип данных Series. Основные методы библиотеки Pandas. Применение библиотеки для анализа данных на реальном примере. Работа с объемными таблицами.
4 часа 3 часа СР
Смешанное занятие №4
Применение библиотек matplotlib, pandas, seaborn для визуализации данных. Практическое применение на реальных примерах.
4 часа 3 часа СР
Смешанное занятие №5
Функции: объявление и способы вызова функций, особенности передачи аргументов в функцию, аргументы по-умолчанию. Область видимости переменных, правило LEGB. Функция, как объект. Элементы функционального программирования: lambda-функции, встроенные функции map, filter, reduce, zip. Декораторы функций.
Механизм итерации и генераторы в Python. Выражения-генераторы и функции-генераторы.
4 часа 3 часа СР
Смешанное занятие №6
Объектно-ориентированное программирование (ООП), и особенности реализации парадигм ООП в языке Python. Методы и атрибуты классов и их экземпляров. Свойства классов, @property. Обзор магических методов классов. Наследование, абстрактные классы, особенности множественного наследования.
Исключения. Менеджеры контекстов, оператор with.
4 часа 3 часа СР
Смешанное занятие №7
Парсинг данных с помощью Python
Основы регулярных выражений. Взаимодействие с API веб-сервисов и форматом данных JSON. Парсинг html-страниц: встроенные средства Python (HTMLParser), библиотеки BeautifulSoup, lxml, Selenium.
4 часа 3 часа СР
Смешанное занятие №8
Выборка и генеральная совокупность. Описательная статистика. Оценки генеральной совокупности. Выборочные оценки. Проверка гипотез. Критерий Стьюдента. Проверка распределений на нормальность. Анализ качественных признаков.
4 часа 3 часа СР
Смешанное занятие №9
Доверительные интервалы. Непараметрические критерии. Ранговые критерии. Перестановочные критерии. Регрессия. Корреляция.
4 часа 3 часа СР
Смешанное занятие №10
Компоненты временного ряда. Предсказание по временному ряду. Валидация для временного ряда. Эконометрический подход. Понятие автокорреляции. Модели класса ARIMA.
4 часа
Смешанное занятие №11
Основы языка SQL.Группы операторов SQL.Оператор выборки SELECT. Предложение GROUP BY. Предложение HAVING. Объединения таблиц.
4 часа