Методы распределенной обработки больших объемов данных в Hadoop

Длительность
  • 17 занятий
  • 68 ак. часов
Курс преподают
  • Чернов Евгений Чернов Евгений
  • Денис Клюкин Денис Клюкин
  • Владимир Гулин Владимир Гулин
Получаемые навыки

После прохождения курса студенты освоят:

— общие знания относительно способов хранения и методов обработки больших объемов данных

— общие знания относительно работы распределенных систем в контексте фреймворка Hadoop

— практические навыки разработки приложений используя программную модель MapReduce

Контроль знаний

На протяжении всего семестра за определенные виды работ, выполняемые студентами, выставляются баллы. 15 баллов ставится за каждое домашнее задание. 10 баллов ставится за каждый рубежный контроль. Всего можно набрать 100 баллов. Баллы за рубежный контроль можно поднять на экзамене. Итоговая оценка выставляется следующим образом: 0–54 неудовлетворительно, 55–70 удовлетворительно, 71–85 хорошо, 86–100 отлично.

Цель курса — Данный курс представляет введение в Hadoop, фокусируясь на проектировании и реализации распределенных алгоритмов, которые могут применяться в различных сферах: обработка текстов, графов, связанных данных и т.п. Также, рассматриваются различные компоненты платформы Hadoop и различные программные модели. Целью курса является знакомство студентов со стеком технологий Hadoop, применяемых для хранения, доступа и обработки больших объемов данных.

Современный мир IT-индустрии переживает революцию под названием «BigData»: доступность больших объемов данных открывает прекрасные возможости для использования в компьютерных приложениях и научных исследованиях. Такие вычисления требуют модели программирования, которая позволяла бы относительно легко распределять вычислительные задачи по большим компьютерных кластерам. И одной из них является модель MapReduce. Реализация MapReduce в открытом проекте Hadoop является наиболее популярной с точки зрения использования. Преимущества использования Hadoop включают в себя простоту применения для разработчиков, возможность масштабирования на объемы в петабайты данных и тысячи серверов, высокая степень отказоустойчивости. Hadoop является ключевым компонентом для стека технологий, которые обеспечивают работу приложений, ориентированных на интенсивную обработку больших объемов данных.

Лекция №1

Вводная лекция про BigData, введение про MapReduce

4 часа 1 часа СР

Лекция №2

Распределенная файловая система HDFS

4 часа 1 часа СР

Лекция №3

Введение в Java

4 часа 3 часа СР

Лекция №4

MapReduce в Hadoop, введение

4 часа 1 часа СР

Лекция №5

MapReduce в Hadoop, продолжение

4 часа 1 часа СР

Лекция №6

MapReduce в Hadoop, заключение

4 часа 2 часа СР

Лекция №7

Введение в Pig и Hive

4 часа 2 часа СР

Лекция №8

Решение MR задач

4 часа 1 часа СР

Лекция №9

NoSQL базы данных, введение в Hbase

4 часа 2 часа СР

Лекция №10

Применение HBase на практике

4 часа 1 часа СР

Лекция №11

Другие NoSQL базы данных: Cassandra, AeroSpike, Redis

4 часа 2 часа СР

Лекция №12

Введение в Spark

4 часа 2 часа СР

Лекция №13

Библиотеки Spark

4 часа 2 часа СР

Лекция №14

Hadoop 2.0. YARN.

4 часа 2 часа СР

Лекция №15

Hadoop: примеры использования в реальных проектах

4 часа 2 часа СР

Экзамен №1

Итоговое занятие. Экзамен

4 часа 2 часа СР

Пересдача №1

Пересдача

4 часа

Также в третьем семестре:
Информационный поиск. Часть 2

Студенты в завершении данного курса получат знания в области задач машинного обучения, узнают, как решается одна из самых сложных проблем искусственного интеллекта, понимание потребностей человека и поиск подходящего решения.

Дополнительные главы машинного обучения

По завершению курса студенты получат знания о том, как устроены системы машинного обучения в крупных интернет проектах, а также практические навыки для успешного участия в таких проектах.

© Mail.Ru Group, 2011–2018

Обратная связь

Присоединяйся:

Группа ВКонтакте
  • Дизайн:
    Nimax
  • Разработка:
    Лаборатория
    технопарка
Версия портала - 5.33.3