Руководство по подготовке к Data science интервью [Ренат Алимбеков] (pdf) читать постранично, страница - 3
Книга в формате pdf! Изображения и текст могут не отображаться!
[Настройки текста] [Cбросить фильтры]
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (13) »
Распределение Пуассона
Распределение Пуассона также называется распределением редких событий. В общем, если у вас
есть событие, которое происходит с фиксированной скоростью во времени (т.е. 3 события в
минуту, 5 событий в час), вероятность наблюдения числа n событий в единицу времени может
быть описана распределением Пуассона, которое имеет эту формулу:
μ - частота событий в единицу времени.
Вот несколько примеров:
Как видите, его форма похожа на распределение Гаусса, а его пик равен μ.
Распределение Пуассона широко используется в физике элементарных частиц, а в науке о данных
может быть полезно, описывать события с фиксированной скоростью (например, покупатель,
который входит в супермаркет утром).
Распределение Пуассона - это дискретное распределение вероятностей.
Распределение Пуассона — это распределение количества, т.е. количества случаев, когда
событие произошло в заданный интервал времени.
Распределение Пуассона можно использовать для прогнозирования вероятности
количества успешных событий, которые могут произойти в определенный интервал
времени.
Пример: если в колл-центр поступило 50 звонков за 1 час, то с помощью распределения
Пуассона мы можем предсказать вероятность получения 20 звонков в следующие 30
минут.
Логнормальное распределение
Если вы возьмете гауссовскую переменную и возведете в степень, вы получите логнормальное
распределение, функция плотности вероятности которого:
μ и σ совпадают с исходным гауссовым распределением.
Несколько примеров:
Логнормальное распределение широко встречается в природе. Артериальное давление следует
логнормальному распределению, размеры городов и так далее. Очень интересно использовать
геометрическое броуновское движение, которое представляет собой модель случайного
блуждания, часто используемую для описания финансовых рынков, особенно в уравнении БлэкаШоулза для ценообразования.
Экспоненциальное распределение
Если у вас есть событие Пуассона, которое происходит с фиксированной скоростью, временной
интервал между двумя последовательными появлением этого события распределяется
экспоненциально.
Экспоненциальное распределение имеет такую функцию плотности:
τ - средний временной интервал между двумя последовательными событиями.
Экспоненциальное распределение используется в физике элементарных частиц и, вообще, если
вы хотите перейти от пуассоновского процесса (в котором вы изучаете количество событий) к
чему-то более связанному со временем (например, сколько времени проходит между двумя
последовательными клиентами, входящими в магазин).
Машинное обучение с учителем
Что такое машинное обучение с учителем?
Случай, когда у нас есть как объекты (матрица X), так и таргеты (вектор y)
Бинараная классификация
Статистическая бинарная классификация. Статистическая классификация - это проблема,
изучаемая в машинном обучении. Это тип обучения с учителем, метод машинного обучения, в
котором таргеты предопределены, и используется для категоризации новых вероятностных
наблюдений по указанным таргетам. Когда есть только два таргета, проблема известна как
статистическая бинарная классификация.
Некоторые из методов, обычно используемых для двоичной классификации:
Деревья решений
Случайные леса
Байесовские сети
Support vector machines (SVM)
Нейронные сети
Логистическая регрессия
Пробит-модель
Каждый классификатор лучше всего подходит только для выбранной области на основе
количества наблюдений, размерности вектора признаков, шума в данных и многих других
факторов. Например, случайные леса работают лучше, чем классификаторы SVM для трехмерных
облаков точек.
Есть много метрик, которые можно использовать для измерения производительности
классификатора или предиктора; разные метрики применяются для разных целей. В медицине
часто используются чувствительность и специфичность, тогда как при поиске информации
предпочтительны точность и охват (presicion и recall). Важное различие заключается между
метриками, которые не зависят от того, как часто каждая категория встречается в популяции
(распространенность), и метриками, которые зависят от распространенности - оба типа полезны,
но имеют очень разные свойства.
Учитывая классификацию конкретного набора данных, существует четыре основных комбинации
таргетов фактических данных и предсказанного таргета: истинно положительные TP
(правильные положительные присвоения), истинно отрицательные TN (правильные
отрицательные присвоения), ложные положительные результаты FP (неправильные
положительные назначения) и ложноотрицательные FN (неправильные отрицательные
отнесения).
Матрица ошибок
Результат положительный
Результат отрицательный
Состояние положительное
Истинно положительный
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (13) »
Последние комментарии
4 часов 19 минут назад
1 день 15 часов назад
1 день 23 часов назад
2 дней 14 часов назад
2 дней 18 часов назад
2 дней 18 часов назад