КулЛиб - Классная библиотека! Скачать книги бесплатно
Всего книг - 719249 томов
Объем библиотеки - 1438 Гб.
Всего авторов - 276153
Пользователей - 125339

Новое на форуме

Новое в блогах

Впечатления

medicus про Демина: Не выпускайте чудовищ из шкафа (Детективная фантастика)

Очень. Рублёные. Фразы. По несколько слов. Каждая. Слог от этого выглядит специфическим. Тяжко это читать. Трудно продираться. Устал. На 12% бросил.

Рейтинг: +1 ( 1 за, 0 против).
kiyanyn про Деревянко: Что не так со структурой атомов? (Физика)

Первый признак псевдонаучного бреда на физмат темы - отсутствие формул (или наличие тривиальных, на уровне школьной арифметики) - имеется :)

Отсутствие ссылок на чужие работы - тоже.

Да эти все формальные критерии и ни к чему, и так видно, что автор в физике остановился на уровне учебника 6-7 класса. Даже на советскую "Детскую энциклопедию" не тянет.

Чего их всех так тянет именно в физику? писали б что-то юридически-экономическое

  подробнее ...

Рейтинг: +3 ( 3 за, 0 против).
Влад и мир про Сомов: Пустой (СИ) (Боевая фантастика)

От его ГГ и писанины блевать хочется. Сам ГГ себя считает себя ниже плинтуса. ГГ - инвалид со скверным характером, стонущим и обвиняющий всех по любому поводу, труслив, любит подхалимничать и бить в спину. Его подобрали, привели в стаб и практически был на содержании. При нападений тварей на стаб, стал убивать охранников и знахаря. Оправдывает свои действия запущенным видом других, при этом точно так же не следит за собой и спит на

  подробнее ...

Рейтинг: +2 ( 2 за, 0 против).
Влад и мир про Nezloi: Первый чемпион Земли 2 (Боевая фантастика)

Мне понравились обе книги.

Рейтинг: +2 ( 2 за, 0 против).
Влад и мир про ezh: Всадник Системы (Попаданцы)

Прочитал обе книги с удовольствием. Спасибо автору!

Рейтинг: +1 ( 1 за, 0 против).

Руководство по подготовке к Data science интервью [Ренат Алимбеков] (pdf) читать постранично, страница - 3

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

интерпретации.

Распределение Пуассона
Распределение Пуассона также называется распределением редких событий. В общем, если у вас
есть событие, которое происходит с фиксированной скоростью во времени (т.е. 3 события в
минуту, 5 событий в час), вероятность наблюдения числа n событий в единицу времени может
быть описана распределением Пуассона, которое имеет эту формулу:

μ - частота событий в единицу времени.
Вот несколько примеров:

Как видите, его форма похожа на распределение Гаусса, а его пик равен μ.
Распределение Пуассона широко используется в физике элементарных частиц, а в науке о данных
может быть полезно, описывать события с фиксированной скоростью (например, покупатель,
который входит в супермаркет утром).






Распределение Пуассона - это дискретное распределение вероятностей.
Распределение Пуассона — это распределение количества, т.е. количества случаев, когда
событие произошло в заданный интервал времени.
Распределение Пуассона можно использовать для прогнозирования вероятности
количества успешных событий, которые могут произойти в определенный интервал
времени.
Пример: если в колл-центр поступило 50 звонков за 1 час, то с помощью распределения
Пуассона мы можем предсказать вероятность получения 20 звонков в следующие 30
минут.

Логнормальное распределение
Если вы возьмете гауссовскую переменную и возведете в степень, вы получите логнормальное
распределение, функция плотности вероятности которого:

μ и σ совпадают с исходным гауссовым распределением.
Несколько примеров:

Логнормальное распределение широко встречается в природе. Артериальное давление следует
логнормальному распределению, размеры городов и так далее. Очень интересно использовать
геометрическое броуновское движение, которое представляет собой модель случайного
блуждания, часто используемую для описания финансовых рынков, особенно в уравнении БлэкаШоулза для ценообразования.
Экспоненциальное распределение
Если у вас есть событие Пуассона, которое происходит с фиксированной скоростью, временной
интервал между двумя последовательными появлением этого события распределяется
экспоненциально.
Экспоненциальное распределение имеет такую функцию плотности:

τ - средний временной интервал между двумя последовательными событиями.

Экспоненциальное распределение используется в физике элементарных частиц и, вообще, если
вы хотите перейти от пуассоновского процесса (в котором вы изучаете количество событий) к
чему-то более связанному со временем (например, сколько времени проходит между двумя
последовательными клиентами, входящими в магазин).

Машинное обучение с учителем
Что такое машинное обучение с учителем?
Случай, когда у нас есть как объекты (матрица X), так и таргеты (вектор y)
Бинараная классификация
Статистическая бинарная классификация. Статистическая классификация - это проблема,
изучаемая в машинном обучении. Это тип обучения с учителем, метод машинного обучения, в
котором таргеты предопределены, и используется для категоризации новых вероятностных
наблюдений по указанным таргетам. Когда есть только два таргета, проблема известна как
статистическая бинарная классификация.
Некоторые из методов, обычно используемых для двоичной классификации:








Деревья решений
Случайные леса
Байесовские сети
Support vector machines (SVM)
Нейронные сети
Логистическая регрессия
Пробит-модель

Каждый классификатор лучше всего подходит только для выбранной области на основе
количества наблюдений, размерности вектора признаков, шума в данных и многих других
факторов. Например, случайные леса работают лучше, чем классификаторы SVM для трехмерных
облаков точек.
Есть много метрик, которые можно использовать для измерения производительности
классификатора или предиктора; разные метрики применяются для разных целей. В медицине
часто используются чувствительность и специфичность, тогда как при поиске информации
предпочтительны точность и охват (presicion и recall). Важное различие заключается между
метриками, которые не зависят от того, как часто каждая категория встречается в популяции
(распространенность), и метриками, которые зависят от распространенности - оба типа полезны,
но имеют очень разные свойства.
Учитывая классификацию конкретного набора данных, существует четыре основных комбинации
таргетов фактических данных и предсказанного таргета: истинно положительные TP
(правильные положительные присвоения), истинно отрицательные TN (правильные
отрицательные присвоения), ложные положительные результаты FP (неправильные
положительные назначения) и ложноотрицательные FN (неправильные отрицательные
отнесения).
Матрица ошибок
Результат положительный
Результат отрицательный



Состояние положительное
Истинно положительный