КулЛиб - Классная библиотека! Скачать книги бесплатно
Всего книг - 719562 томов
Объем библиотеки - 1440 Гб.
Всего авторов - 276251
Пользователей - 125349

Последние комментарии

Новое на форуме

Новое в блогах

Впечатления

sewowich про Евтушенко: Отряд (Боевая фантастика)

2medicus: Лучше вспомни, как почти вся Европа с 1939 по 1945 была товарищем по оружию для германского вермахта: шла в Ваффен СС, устраивала холокост, пекла снаряды для Третьего рейха. А с 1933 по 39 и позже англосаксонские корпорации вкладывали в индустрию Третьего рейха, "Форд" и "Дженерал Моторс" ставили там свои заводы. А 17 сентября 1939, когда советские войска вошли в Зап.Белоруссию и Зап.Украину (которые, между прочим, были ранее захвачены Польшей

  подробнее ...

Рейтинг: +1 ( 1 за, 0 против).
medicus про Евтушенко: Отряд (Боевая фантастика)

cit anno:
"Но чтобы смертельные враги — бойцы Рабоче — Крестьянской Красной Армии и солдаты германского вермахта стали товарищами по оружию, должно случиться что — то из ряда вон выходящее"

Как в 39-м, когда они уже были товарищами по оружию?

Рейтинг: 0 ( 2 за, 2 против).
iv4f3dorov про Лопатин: Приказ простой… (Альтернативная история)

Дочитал до строчки:"...а Пиррова победа комбату совсем не требовалась, это плохо отразится в резюме." Афтырь очередной щегол-недоносок с антисоветским говнищем в башке. ДЭбил, в СА у офицеров было личное дело, а резюме у недоносков вроде тебя.

Рейтинг: +3 ( 4 за, 1 против).
medicus про Демина: Не выпускайте чудовищ из шкафа (Детективная фантастика)

Очень. Рублёные. Фразы. По несколько слов. Каждая. Слог от этого выглядит специфическим. Тяжко это читать. Трудно продираться. Устал. На 12% бросил.

Рейтинг: +1 ( 1 за, 0 против).
kiyanyn про Деревянко: Что не так со структурой атомов? (Физика)

Первый признак псевдонаучного бреда на физмат темы - отсутствие формул (или наличие тривиальных, на уровне школьной арифметики) - имеется :)

Отсутствие ссылок на чужие работы - тоже.

Да эти все формальные критерии и ни к чему, и так видно, что автор в физике остановился на уровне учебника 6-7 класса. Даже на советскую "Детскую энциклопедию" не тянет.

Чего их всех так тянет именно в физику? писали б что-то юридически-экономическое

  подробнее ...

Рейтинг: +4 ( 4 за, 0 против).

Машинное обучение доступным языком [Елена Капаца] (pdf) читать постранично, страница - 3

-  Машинное обучение доступным языком  [Ознакомительный фрагмент] 1.21 Мб, 25с. скачать: (pdf) - (pdf+fbd)  читать: (полностью) - (постранично) - Елена Капаца

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

появлению централизованных хранилищ
данных. Но только в конце 1980-х и начале 1990-х годов, когда они заняли центральное место,
мир ощутил потребность в специализированных загрузочных инструментах. Первым пользователям нужен был способ извлекать информацию из разрозненных систем, преобразовывать
ее в целевой формат и загружать в конечное место хранения. Первые инструменты ETL были
примитивными, и объем данных, которые они обрабатывали, был скромным по сегодняшним
меркам.
По мере роста объема данных росли и хранилища данных, а программные инструменты
ETL множились и становились все более сложными. Но до конца 20-го века хранение и преобразование данных осуществлялось в основном в локальных хранилищах. Однако произошло
нечто, навсегда изменившее наш взгляд на хранение и обработку.

Облачные вычисления
Объем данных, которые мы генерируем и собираем, продолжает расти с экспоненциальной скоростью. У нас есть все более сложные инструменты, которые позволяют нам использовать все наши данные для получения представления о исследуемом предмете в режиме онлайн.
Традиционная инфраструктура не может масштабироваться для хранения и обработки
большого объема данных. Это неэффективно с точки зрения затрат. Если мы хотим выполнять
16

Е. Капаца. «Машинное обучение доступным языком»

высокоскоростную, сложную аналитику и строить подобные модели, облако – оптимальное
решение.
Облачные хранилища могут бесконечно масштабироваться для размещения практически любого объема данных. Облачное хранилище также позволяет координировать огромные
рабочие нагрузки между группами вычисляющих серверов.
Преобразования и моделирование данных часто выполняются с помощью SQL – языка
запросов к базе данных.
Конечная точка ETL – хранилище данных (DWH).

17

Е. Капаца. «Машинное обучение доступным языком»

DWH

(data warehouse – хранилище данных) предназначено исключительно для выполнения
запросов и часто содержит большие объемы исторических данных. Данные в хранилище
обычно поступают из широкого круга источников, таких как:
• Логи приложений
• Сведения, собираемые с форм на сайте
• Записи различных устройств, вроде видеокамер и датчиков температуры
18

Е. Капаца. «Машинное обучение доступным языком»

Хранилище объединяет большие объемы данных из нескольких источников. Это позволяет генерировать ценные инсайты2 и улучшать процесс принятия решений. С ростом объема и
качества DWH становится бесценным объектом для бизнес-аналитики. Типичное хранилище
данных часто включает следующие элементы:
• Реляционная база данных
• ПО для ETL
• Инструменты анализа и визуализации
• Модели машинного обучения
К популярным хранилищам можно отнести Amazon Redshift, Google BigQuery и
Greenplum.
Стоит отличать DWH от так называемого озера данных (data lake). Хранилище содержит очищенные и структурированные данные, готовые к анализу на основе предопределенных
потребностей бизнеса. В озере же все содержится в необработанном, неструктурированном
виде.
Когда команда ML получает доступ к такому хранилищу, то предваряет моделирование
целой серией действий – разведочным анализом данных (EDA).

2

Решение задачи

19

Е. Капаца. «Машинное обучение доступным языком»

EDA

(exploratory data analysis – разведочный анализ данных) предварительное исследование
датасета с целью определения его основных характеристик, взаимосвязей между признаками,
а также сужения набора методов, используемых для создания модели.
Давайте рассмотрим, на какие этапы разбивают EDA. Для этого мы используем данные3
банка, который продает кредитные продукты своим клиентам. Возьмет ли клиент кредит или
нет?
Мы располагаем обширным набором переменных (столбцов):

3

Исходная англоязычная версия датасета: kaggle.com/datasets/volodymyrgavrysh/bank-marketing-campaigns-dataset

20

Е. Капаца. «Машинное обучение доступным языком»

Это не сам датасет, а только описание столбцов
Столбец Y назван так неслучайно: это общепринятое обозначение целевой переменной
(target variable). Изучив 40 тысяч записей о клиентах, модель автоматически сможет предсказывать, возьмет новый клиент кредит или не возьмет.

21

Е. Капаца. «Машинное обучение доступным языком»

Довольно увесистый датасет: записей в нем более 40 тысяч. Для начала4 импортируем
датасет и посмотрим на "шапку". С помощью метода head() мы отобразим шапку датафрейма
и первые пять записей:
df = pd.read_csv('https://www.dropbox.com/s/62xm9ymoaunnfg6/bank-full.csv?dl=1',
sep=';')
df.head()
Параметр sep используется, чтобы задать нестандартный разделитель данных по столбцам, в данном случае – точку с запятой.

Все столбцы мы отображать здесь, конечно, не будем

4

Здесь и далее ячейка с импортом библиотек будет пропущена. С полной версией кода можно ознакомиться в конце главы
по QR-коду со ссылкой.

22

Е. Капаца. «Машинное обучение доступным языком»

Удаление дубликатов
(duplicates removing) Повторяющиеся