КулЛиб - Классная библиотека! Скачать книги бесплатно
Всего книг - 719582 томов
Объем библиотеки - 1440 Гб.
Всего авторов - 276257
Пользователей - 125349

Новое на форуме

Новое в блогах

Впечатления

sewowich про Евтушенко: Отряд (Боевая фантастика)

2medicus: Лучше вспомни, как почти вся Европа с 1939 по 1945 была товарищем по оружию для германского вермахта: шла в Ваффен СС, устраивала холокост, пекла снаряды для Третьего рейха. А с 1933 по 39 и позже англосаксонские корпорации вкладывали в индустрию Третьего рейха, "Форд" и "Дженерал Моторс" ставили там свои заводы. А 17 сентября 1939, когда советские войска вошли в Зап.Белоруссию и Зап.Украину (которые, между прочим, были ранее захвачены Польшей

  подробнее ...

Рейтинг: +1 ( 1 за, 0 против).
medicus про Евтушенко: Отряд (Боевая фантастика)

cit anno:
"Но чтобы смертельные враги — бойцы Рабоче — Крестьянской Красной Армии и солдаты германского вермахта стали товарищами по оружию, должно случиться что — то из ряда вон выходящее"

Как в 39-м, когда они уже были товарищами по оружию?

Рейтинг: 0 ( 2 за, 2 против).
iv4f3dorov про Лопатин: Приказ простой… (Альтернативная история)

Дочитал до строчки:"...а Пиррова победа комбату совсем не требовалась, это плохо отразится в резюме." Афтырь очередной щегол-недоносок с антисоветским говнищем в башке. ДЭбил, в СА у офицеров было личное дело, а резюме у недоносков вроде тебя.

Рейтинг: +3 ( 4 за, 1 против).
medicus про Демина: Не выпускайте чудовищ из шкафа (Детективная фантастика)

Очень. Рублёные. Фразы. По несколько слов. Каждая. Слог от этого выглядит специфическим. Тяжко это читать. Трудно продираться. Устал. На 12% бросил.

Рейтинг: +1 ( 1 за, 0 против).
kiyanyn про Деревянко: Что не так со структурой атомов? (Физика)

Первый признак псевдонаучного бреда на физмат темы - отсутствие формул (или наличие тривиальных, на уровне школьной арифметики) - имеется :)

Отсутствие ссылок на чужие работы - тоже.

Да эти все формальные критерии и ни к чему, и так видно, что автор в физике остановился на уровне учебника 6-7 класса. Даже на советскую "Детскую энциклопедию" не тянет.

Чего их всех так тянет именно в физику? писали б что-то юридически-экономическое

  подробнее ...

Рейтинг: +4 ( 4 за, 0 против).

Машинное обучение доступным языком [Елена Капаца] (pdf) читать постранично, страница - 2

-  Машинное обучение доступным языком  [Ознакомительный фрагмент] 1.21 Мб, 25с. скачать: (pdf) - (pdf+fbd)  читать: (полностью) - (постранично) - Елена Капаца

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

хотим автоматизировать этот процесс и построить модель. Она будет корректировать формулу сама каждый раз, когда появляются новые примеры цен на жилье. В целом,
ML невероятно полезно для задач, когда мы располагаем неполной или слишком обильной
информацией для программирования вручную. В этих случаях мы можем предоставить имеющиеся сведения и позволить ей «изучить» недостающую. Затем алгоритм будет использовать
статистические методы для извлечения недостающих знаний.
Машинное обучение способно выполнять широкий спектр задач:
• оценки стоимости чего угодно
• изменение изображений
• помощь на письме
• обработка звука
• генерация текста и многие другие.
Представьте, что Машинное обучение – это конвейер по сборке автомобилей. И первое,
что потребуется для его работы – металл, различные композитные материалы, и в конечном
итоге, топливо. Вся эта троица олицетворяет данные.

8

Е. Капаца. «Машинное обучение доступным языком»

Данные

Данные – основа основ в ML. В контексте науки принято рассматривать два типа: традиционные и большие (big data).
Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера. На самом деле, эпитет «традиционный» введен для ясности: это помогает подчеркнуть различия с большими.
Большие данные, в свою очередь, массивнее, чем традиционные, по ряду характеристик:
• типы (числа, текст, изображения, аудио, видео и проч.)
• скорость извлечения и вычисления
• объем (тера-, пета-, эксабайты и проч.).
Набор однотипных данных, выделенный с целью обучения модели, называют датасетом
(dataset). Их разделяют на следующие категории:

Классическая таблица
Здесь каждая строка имеет одинаковый набор характеристик-столбцов. Такие таблицы –
датафреймы (dataframe) обычно хранятся либо в файлах форматов .csv, .parquet, либо в базах
данных:

9

Е. Капаца. «Машинное обучение доступным языком»

Датасет о результативности футбольных команд

Текстовый документ
(document) Отдельно взятой единицей здесь является блок (corpus). Например, книгу
можно рассматривать как датасет, состоящий из абзацев – корпусов.
“… После обучения в Университете Вашингтона Болл опубликовала статью в Journal
of the American Chemical Society и отправилась на Гавайи, чтобы стать магистром химии. В
1915 г. она впервые среди женщин и афроамериканцев получила степень магистра в Гавайском
колледже, где осталась преподавать”.
Корпус из книги-датасета Рейчел Свайби “52 упрямые женщины”

Графы
(graph) Здесь отдельно взятая единица – это связь между объектами:

10

Е. Капаца. «Машинное обучение доступным языком»

Граф социальной сети

Аудиодорожки
Здесь довольно очевидно: аудиозаписи. Помимо распознавания речи ML решает обширный спектр задач с помощью таких данных: очистка от шумов, написание музыки.

Временной ряд
(time series) Здесь каждая точка привязана к временной оси x и, как правило, взаимосвязана с окружающими ее соседями.

11

Е. Капаца. «Машинное обучение доступным языком»

Цена акции LG на момент открытия биржи на протяжении года

Последовательные данные

12

Е. Капаца. «Машинное обучение доступным языком»

(sequence data) Состоят из набора отдельных объектов, таких как слова или буквы. Здесь
нет временных меток; вместо этого есть позиции в упорядоченной последовательности:
На картинке справа яркий пример: геном – набор генов в хромосоме.

Пространственные данные
(geospatial data) Здесь каждая точка имеет координаты:

13

Е. Капаца. «Машинное обучение доступным языком»

Трафик аэропортов США

Изображения
нок.

Здесь единицей является отдельная картинка. Видео рассматривается как набор карти-

14

Е. Капаца. «Машинное обучение доступным языком»

Датасет рукописных цифр
Перед дата-сайентистами часто встает вопрос: где взять данные?
Студентам проще: у некоторых обширных библиотек вроде Scikit-learn встречаются собственные встроенные датасеты, прекрасно подходящие для обучения:
from sklearn.datasets import load_digits
digits = load_digits()
Помимо таких встроенных коллекций, данные предоставляют бесплатно еще и ресурсы
вроде kaggle.com.
А вот на рабочей ниве требования к информации куда специфичнее. Порой проще и
лучше собрать свой набор, и в таком случае мы обращаемся к инструментам ETL.

15

Е. Капаца. «Машинное обучение доступным языком»

ETL

(extract, transform, load – извлечь, преобразовать и загрузить) группа процессов, происходящих при переносе данных из нескольких систем в одно хранилище.
Если у вас есть данные из нескольких источников, вам необходимо:
• Извлекать данные из исходного источника
• Преобразовывать информацию путем очистки, объединения и других способов подготовки
• Загружать результат в целевое хранилище
Как правило, один инструмент ETL выполняет все три шага. Пожалуй, самый популярный сегодня представитель такого программного обеспечения – это Hadoop.
ETL уходит своими корнями в 1970-е годы к