КулЛиб - Классная библиотека! Скачать книги бесплатно
Всего книг - 714798 томов
Объем библиотеки - 1415 Гб.
Всего авторов - 275165
Пользователей - 125190

Новое на форуме

Новое в блогах

Впечатления

Влад и мир про Тарханов: Мы, Мигель Мартинес (Альтернативная история)

Оценку не ставлю, но начало туповатое. ГГ пробило на чаёк и думать ГГ пока не в может. Потом запой. Идет тупой набор звуков и действий. То что у нормального человека на анализ обстановки тратится секунды или на минуты, тут полный ноль. ГГ только понял, что он обрезанный еврей. Дальше идет пустой трёп. ГГ всего боится и это основная тема. ГГ признал в себе опального и застреленного писателя, позже оправданного. В основном идёт

  подробнее ...

Рейтинг: 0 ( 0 за, 0 против).
iv4f3dorov про Тюрин: Цепной пес самодержавия (Альтернативная история)

Афтырь упоротый мудак, жертва перестройки.

Рейтинг: +1 ( 1 за, 0 против).
iv4f3dorov про Дорнбург: Змеелов в СССР (Альтернативная история)

Очередное антисоветское гавно размазанное тонким слоем по всем страницам. Афтырь ты мудак.

Рейтинг: +2 ( 3 за, 1 против).
A.Stern про Штерн: Анархопокалипсис (СИ) (Боевик)

Господи)))
Вы когда воруете чужие книги с АТ: https://author.today/work/234524, вы хотя бы жанр указывайте правильный и прологи не удаляйте.
(Заходите к автору оригинала в профиль, раз понравилось!)

Какое же это фентези, или это эпоха возрождения в постапокалиптическом мире? -)
(Спасибо неизвестному за пиар, советую ознакомиться с автором оригинала по ссылке)

Ещё раз спасибо за бесплатный пиар! Жаль вы не всё произведение публикуете х)

Рейтинг: 0 ( 1 за, 1 против).
чтун про серию Вселенная Вечности

Все четыре книги за пару дней "ушли". Но, строго любителям ЛитАниме (кароч, любителям фанфиков В0) ). Не подкачал, Антон Романович, с "чувством, толком, расстановкой" сделал. Осталось только проду ждать, да...

Рейтинг: +2 ( 2 за, 0 против).

Руководство по подготовке к Data science интервью [Ренат Алимбеков] (pdf) читать постранично

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

РУКОВОДСТВО
ПО ПОДГОТОВКЕ К
DATA SCIENCE ИНТЕРВЬЮ
Автор
Ренат Алимбеков

Первое издание
2021

Статистика и теория вероятности
Что такое центральная предельная теорема? Объясните ее. Почему она важна?
Центральная предельная теорема гласит, что выборочное распределение выборочного среднего
приближается к нормальному распределению по мере того, как размер выборки увеличивается,
независимо от формы распределения генеральной совокупности
Центральная предельная теорема важна, потому что она используется при проверке гипотез, а
также для вычисления доверительных интервалов.

Что такое статистическая мощность?
Статистическая мощность - вероятность отклонения основной (или нулевой) гипотезы
при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная)
гипотеза верна.

Как поступать с отсутствующими данными? Какие методы вы рекомендуете?
Есть несколько способов исправить недостающие данные:






Удалить строки с отсутствующими данными
Среднее / Медиана / Мода
Присвоение уникального значения
Прогнозирование недостающих значений
Использование алгоритма, поддерживающего
случайный лес

пропущенные

значения,

например

Наилучшим методом является удаление строк с отсутствующими данными, поскольку это
гарантирует, что смещение или отклонение не будет добавлено или удалено, и в конечном итоге
приведет к созданию надежной и точной модели. Однако это можно рекомендовать только в том
случае, если есть достаточно данных и процент пропущенных значений невелик.

Распределения
Нормальное распределение
Нормальное распределение, также известное как распределение Гаусса. Нормальное
распределение, вероятно, является самым популярным распределением вероятностей. Это
непрерывное распределение в форме колокола, симметричное среднему значению. Функция
плотности вероятности для нормального распределения выглядит следующим образом:

где μ - среднее значение, а σ - стандартное отклонение распределения.
Среднее значение (μ): Среднее значение всех точек в сэмпле.
Стандартное отклонение (σ): насколько набор данных отклоняется от среднего значения
выборки.
Некоторые характерные особенности нормального распределения заключаются в следующем:
1.
2.

3.
4.
5.
6.
7.

Оно симметрично относительно среднего.
Оно следует колоколообразной кривой. Каждая кривая колокола не обязательно должна
быть нормальным распределением, но каждое нормальное распределение является
кривой колокола.
Среднее значение, медиана и моды равны.
Общая площадь под кривой равна 1.
68,26% данных находится в пределах одного стандартного отклонения от среднего.
95,44% данных находится между двумя стандартными отклонениями среднего.
99,73% данных лежат между тремя стандартными отклонениями среднего.

Нормальное распределение получает свою важность из Центральной предельной теоремы,
которая гласит, что если мы возьмем достаточно большое количество выборок, их среднее будет
следовать нормальному распределению независимо от начального распределения выборки, то
есть распределения среднего значения выборок нормально. Важно, чтобы каждый сэмпл не
зависел от другого.
Позвольте представить новую переменную с именем z. Z - разница между каждым элементом
данных и средним значением, деленное на стандартное отклонение. Формула:

Интересная особенность z заключается в том, что:
E(z) = 0 (Expected value = 0)
V(Z) = 1 (Variance =1)
Процесс преобразования значений в столбце в соответствующие им значения z называется
стандартизацией. Кроме того, в данных, которые следует нормальному распределению, даже
значения z подчиняются нормальному распределению. Итак, мы можем сказать, что когда, X ~ N
(mu, sigma²), это означает, что следуют соответствующие значения z, Z ~ N (0,1²).

Как мы проверяем, соответствует ли переменная нормальному распределению?
1.

2.

3.
4.

Постройте гистограмму из выборочных данных. Если вы можете подогнать
колоколообразную «нормальную» кривую к гистограмме, то гипотезу о том, что основная
случайная величина следует нормальному распределению, нельзя отвергнуть.
Проверьте Skewness и Kurtosis выборочных данных. Skewness = 0 и Kurtosis = 3 типичны
для нормального распределения, поэтому, чем дальше они от этих значений, тем более
ненормальное распределение.
Используйте тесты Колмогорова-Смирнова и / или Шапиро-Уилка на нормальность. Они
одновременно учитывают асимметрию и эксцесс.
Проверьте график квантиля-квантиля. Это диаграмма рассеяния, созданная путем
сопоставления двух наборов квантилей друг с другом. На нормальном графике Q-Q точки
данных располагаются примерно по прямой линии.

Что такое стандартное нормальное распределение?
Да, это так просто, как и кажется. Это стандартизация («освобождение данных от ограничений
какой-либо шкалы») нормального распределения со