Машинное обучение доступным языком [Елена Капаца] (pdf) читать постранично, страница - 2
Книга в формате pdf! Изображения и текст могут не отображаться!
[Настройки текста] [Cбросить фильтры]
ML невероятно полезно для задач, когда мы располагаем неполной или слишком обильной
информацией для программирования вручную. В этих случаях мы можем предоставить имеющиеся сведения и позволить ей «изучить» недостающую. Затем алгоритм будет использовать
статистические методы для извлечения недостающих знаний.
Машинное обучение способно выполнять широкий спектр задач:
• оценки стоимости чего угодно
• изменение изображений
• помощь на письме
• обработка звука
• генерация текста и многие другие.
Представьте, что Машинное обучение – это конвейер по сборке автомобилей. И первое,
что потребуется для его работы – металл, различные композитные материалы, и в конечном
итоге, топливо. Вся эта троица олицетворяет данные.
8
Е. Капаца. «Машинное обучение доступным языком»
Данные
Данные – основа основ в ML. В контексте науки принято рассматривать два типа: традиционные и большие (big data).
Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера. На самом деле, эпитет «традиционный» введен для ясности: это помогает подчеркнуть различия с большими.
Большие данные, в свою очередь, массивнее, чем традиционные, по ряду характеристик:
• типы (числа, текст, изображения, аудио, видео и проч.)
• скорость извлечения и вычисления
• объем (тера-, пета-, эксабайты и проч.).
Набор однотипных данных, выделенный с целью обучения модели, называют датасетом
(dataset). Их разделяют на следующие категории:
Классическая таблица
Здесь каждая строка имеет одинаковый набор характеристик-столбцов. Такие таблицы –
датафреймы (dataframe) обычно хранятся либо в файлах форматов .csv, .parquet, либо в базах
данных:
9
Е. Капаца. «Машинное обучение доступным языком»
Датасет о результативности футбольных команд
Текстовый документ
(document) Отдельно взятой единицей здесь является блок (corpus). Например, книгу
можно рассматривать как датасет, состоящий из абзацев – корпусов.
“… После обучения в Университете Вашингтона Болл опубликовала статью в Journal
of the American Chemical Society и отправилась на Гавайи, чтобы стать магистром химии. В
1915 г. она впервые среди женщин и афроамериканцев получила степень магистра в Гавайском
колледже, где осталась преподавать”.
Корпус из книги-датасета Рейчел Свайби “52 упрямые женщины”
Графы
(graph) Здесь отдельно взятая единица – это связь между объектами:
10
Е. Капаца. «Машинное обучение доступным языком»
Граф социальной сети
Аудиодорожки
Здесь довольно очевидно: аудиозаписи. Помимо распознавания речи ML решает обширный спектр задач с помощью таких данных: очистка от шумов, написание музыки.
Временной ряд
(time series) Здесь каждая точка привязана к временной оси x и, как правило, взаимосвязана с окружающими ее соседями.
11
Е. Капаца. «Машинное обучение доступным языком»
Цена акции LG на момент открытия биржи на протяжении года
Последовательные данные
12
Е. Капаца. «Машинное обучение доступным языком»
(sequence data) Состоят из набора отдельных объектов, таких как слова или буквы. Здесь
нет временных меток; вместо этого есть позиции в упорядоченной последовательности:
На картинке справа яркий пример: геном – набор генов в хромосоме.
Пространственные данные
(geospatial data) Здесь каждая точка имеет координаты:
13
Е. Капаца. «Машинное обучение доступным языком»
Трафик аэропортов США
Изображения
нок.
Здесь единицей является отдельная картинка. Видео рассматривается как набор карти-
14
Е. Капаца. «Машинное обучение доступным языком»
Датасет рукописных цифр
Перед дата-сайентистами часто встает вопрос: где взять данные?
Студентам проще: у некоторых обширных библиотек вроде Scikit-learn встречаются собственные встроенные датасеты, прекрасно подходящие для обучения:
from sklearn.datasets import load_digits
digits = load_digits()
Помимо таких встроенных коллекций, данные предоставляют бесплатно еще и ресурсы
вроде kaggle.com.
А вот на рабочей ниве требования к информации куда специфичнее. Порой проще и
лучше собрать свой набор, и в таком случае мы обращаемся к инструментам ETL.
15
Е. Капаца. «Машинное обучение доступным языком»
ETL
(extract, transform, load – извлечь, преобразовать и загрузить) группа процессов, происходящих при переносе данных из нескольких систем в одно хранилище.
Если у вас есть данные из нескольких источников, вам необходимо:
• Извлекать данные из исходного источника
• Преобразовывать информацию путем очистки, объединения и других способов подготовки
• Загружать результат в целевое хранилище
Как правило, один инструмент ETL выполняет все три шага. Пожалуй, самый популярный сегодня представитель такого программного обеспечения – это Hadoop.
ETL уходит своими корнями в 1970-е годы к
Последние комментарии
6 часов 26 минут назад
1 день 5 часов назад
1 день 6 часов назад
1 день 6 часов назад
1 день 6 часов назад
1 день 6 часов назад