КулЛиб - Классная библиотека! Скачать книги бесплатно
Всего книг - 706129 томов
Объем библиотеки - 1347 Гб.
Всего авторов - 272720
Пользователей - 124655

Новое на форуме

Новое в блогах

Впечатления

a3flex про Невзоров: Искусство оскорблять (Публицистика)

Да, тварь редкостная.

Рейтинг: 0 ( 1 за, 1 против).
DXBCKT про Гончарова: Крылья Руси (Героическая фантастика)

Обычно я стараюсь никогда не «копировать» одних впечатлений сразу о нескольких томах, однако в отношении части четвертой (и пятой) это похоже единственно правильное решение))

По сути — что четвертая, что пятая часть, это некий «финал пьесы», в котором слелись как многочисленные дворцовые интриги (тайны, заговоры, перевороты и пр), так и вся «геополитика» в целом...

В остальном же — единственная возможная претензия (субъективная

  подробнее ...

Рейтинг: 0 ( 0 за, 0 против).
medicus про Федотов: Ну, привет, медведь! (Попаданцы)

По аннотации сложилось впечатление, что это очередная писанина про аристократа, написанная рукой дегенерата.

cit anno: "...офигевшая в край родня [...] не будь я барон Буровин!".

Барон. "Офигевшая" родня. Не охамевшая, не обнаглевшая, не осмелевшая, не распустившаяся... Они же там, поди, имения, фабрики и миллионы делят, а не полторашку "Жигулёвского" на кухне "хрущёвки". Но хочется, хочется глянуть внутрь, вдруг всё не так плохо.

Итак: главный

  подробнее ...

Рейтинг: 0 ( 0 за, 0 против).
Dima1988 про Турчинов: Казка про Добромола (Юмористическая проза)

А продовження буде ?

Рейтинг: -1 ( 0 за, 1 против).
Colourban про Невзоров: Искусство оскорблять (Публицистика)

Автор просто восхитительная гнида. Даже слушая перлы Валерии Ильиничны Новодворской я такой мерзости и представить не мог. И дело, естественно, не в том, как автор определяет Путина, это личное мнение автора, на которое он, безусловно, имеет право. Дело в том, какие миазмы автор выдаёт о своей родине, то есть стране, где он родился, вырос, получил образование и благополучно прожил всё своё сытое, но, как вдруг выясняется, абсолютно

  подробнее ...

Рейтинг: +2 ( 3 за, 1 против).

Статистика в комиксах [Айлин Мангелло] (pdf) читать онлайн

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

Айлин Магнелло

Борин Ван Лоон

док т о р н а у к Окс форд ского
унив ерси т ет а

художник-сю рр еал ист,
илл ю стратор

в комиксах

УДК 311
ББК 60.6
М12

Introducing Statistics: A Graphic Guide
by Eileen Magnello, Borin Van Loon
Text copyright © 2009 Eileen Magnello
Illustrations copyright © 2009 Icon Books Ltd

М12

Магнелло, Эйлин.
Статистика в комиксах / Эйлин Магнелло, худож. Борин Ван
Лоон ; [пер. с англ. Д. Кудряшова]. — Москва : Эксмо, 2018. —
176 с. : ил. — (Бизнес в комиксах).
ISBN 978-5-04-090149-4
Демографическая статистика против математической, вероятности,
выборки, популяции, «жизненная статистика» Уильяма Фарра и математическая Карла Пирсона... — в этом комиксе обзор истории, философии,
основные концепции и то, как они связаны с реальными проблемами. Решения, основанные на статистике, принимаются каждый день и влияют на
нашу повседневную жизнь. От тестов на профпригодность, которые дают
нам работодатели, одежды, которую мы носим, до еды, которую мы едим,
и даже пива, которое мы пьем. Знание основ статистики может даже спасти или продлить жизни!
УДК 311
ББК 60.6

ISBN 978-5-04-090149-4

© Перевод. Кудряшов Д., 2018
© Оформление. ООО «Издательство «Эксмо», 2018

Погружаясь в числа
Мы погружаемся в статистику, и она состоит не только из чисел.
У СМИ статистика вызывает страх и ужас, а иногда воодушевление. В печати авторы постоянно говорят о том, что статистика преступлений, болезней, бедности и задержек транспорта не является источником проблемы, а представляет реальных людей или
субъектов, являясь чем-то большим, чем отметкой на графике.

Идея
о присвоении значения
отдельному субъекту, глядя на
одну лишь отметку в распределении статистических данных, порождает замешательство
и страх.

3

Средние или вариативные
значения?
Большая часть шокирующей статистической информации, которая распространяется через СМИ, основана
на средних значениях. Несмотря на
зачастую обманчивую озабоченность
средними значениями, самая важная
часть статистического концепта бывает
опущена журналистами и репортерами, и эта часть — вариативные значения. Идея вариативности лежит в основе современной математической
статистики и играет главную роль в биологической,
медицинской, образовательной и промышленной
статистике.
Почему же вариации так
важны?

Вариации измеряют индивидуальные различия, в то
время как средние значения суммируют эту информацию
в один пример.

4

Вариации можно с легкостью наблюдать в мультикультурной Британии,
в особенности в Лондоне, который сейчас состоит из более чем 300 культур, говорящих на многих языках (от ачоли до зулусского языка) и тринадцати различных верований. Для некоторых мультикультурализм состоит
в ценности каждого индивида и сохранении уникальной культуры каждого
индивида (а также в избегании сводить этнически различные группы индивидов к какому-то одному представителю).

Существует так
много индивидуальных
различий в современном
британском населении, что довольно бесполезно говорить
о среднем британце, как это
можно было делать до
1950 года.

Эти разнообразные индивидуальные различия заключают в себе идею
статистической изменчивости, которая является основой современной математической статистики.

5

Зачем изучать статистику?
Статистика используется учеными, экономистами, чиновниками и промышленниками. Решения, основанные на статистике, принимаются каждый
день и влияют на нашу повседневную жизнь — от лекарств, которые мы
принимаем, лечебной помощи, которую нам оказывают, тестов на профпригодность, которые предлагают нам работодатели, машин, которые мы
водим, одежды, которую мы носим (производители шерсти используют
статистические тесты для определения нитей, которые будут максимально
удобны), до еды, которую мы едим, и даже пива, которое мы пьем.

Статистика —
это неизбежная
часть нашей
жизни.

Знание основ статистики может даже спасать или продлевать жизни, как
это случилось со Стивеном Джеем Гулдом (Gould), о котором мы расскажем чуть позже.

6

Статистика – что это?
Несмотря на широкое распространение, определить границы статистики
очень сложно. Как сказал один колумнист: «Сигареты являются основной
причиной статистики». Люди предпочитают избегать неприятных вещей, говоря: «Я не хочу быть очередной частью статистики». Но неужели ученые,
занимающиеся статистикой, действительно полагают, что все человечество
можно свести к нескольким числам?
Несмотря на то, что некоторые люди думают, что результаты статистики
неопровержимы, другие верят, что они обманчивы.

Мою любимую
цитату: «Ложь, проклятая ложь
и статистика» часто вспоминают, когда
пытаются доказать, что статистика
зачастую преднамеренно
обманчива.



 

Ложь...



Проклятая ложь...

835  
-191
0)



  (1

Марк Твен приписал этот афоризм премьер-министру Великобритании Бенджамину Дизраэли в 1904 году. На самом деле Леонард Генри
Кортни (Courtney) впервые сказал это в своей речи в Саратога-Спрингс,
в Нью-Йорке в 1895 году, имея в виду пропорциональность представителей из 44 американских штатов.

7

Некоторые государственные чиновники даже обвиняют статистику в создании экономических проблем. Когда пресс-секретарь Белого дома Скотт
Макклеллан (McCleIIan) в феврале 2004 года попытался объяснить, почему
администрация президента Буша отказалась от своего прогноза, который
предсказывал увеличение количества рабочих мест в США, его объяснение было простым.

Президент
не статистик.

Как
будто бы статистик
мог предоставить рабочие места для безработных в США.

В Великобритании Комитет по статистике призывал, чтобы «Членам Кабинета министров было запрещено проверять статистические данные до их
публичной огласки, так как это поможет избежать политического давления
или эксплуатации». Тем не менее статистика, которая доступна в публичном поле, может формировать мнение граждан, влиять на государственную политику и информировать (или дезинформировать) граждан о медицинских и научных открытиях и прорывах.

8

Что означает слово «статистика»?
Слово «статистика» произошло от латинского «status», которое в свою очередь перешло в итальянский как «statista» и впервые было использовано
в XVI веке, обозначая государственников или государственных деятелей —
тех, кто был связан с делами государства. Немцы стали использовать слово Statistik около 1750 года, французы ввели слово statistique в 1785 году,
а голландцы создали термин statistiek в 1807 году.
На своем
раннем этапе статистика
была дисциплиной, численно описывающей дела государства, «политической арифметикой»
в некотором роде.

Система статистики была впервые использована в XVII веке английским
купцом Джоном Граунтом (1620–1674) и ирландским естествоиспытателем и экономистом Уильямом Петти (1623–1687).






9



В XVIII веке многие ученые-статистики были юристами, их образование
было в сфере общего права (ветвь права, занимающаяся государством).
Шотландский землевладелец и первый президент министерства сельского
хозяйства сэр Джон Синклер (1754–1834) был первым, кто ввел термин
«статистика» в английский язык в 1798 году в своей работе «Статистический
отчет о Шотландии».

Я желаю измерить «количество счастья» шотландцев.

Измерить что
что?

Синклер использовал статистику для анализа общественных явлений вместо политических. Это привело к развитию демографической статистики
в середине XIX века.

10

Демографическая статистика
vs математическая статистика
Не вся статистика одинакова. Есть два типа: демографическая и математическая статистика.
Демографическая статистика — это та, которую большая часть людей
понимает под статистикой. Она является совокупностью собранных данных.

Она связана с описанием и подсчетом того, что
было получено в процессе переписи или в составлении таблиц
государственной статистики,
таких как статистика браков,
разводов и преступлений.

Существует
также статистика
страхований и даже крикетная или бейсбольная
статистика.

Этот процесс связан в основном со средними значениями и использует
таблицы продолжительности жизни, проценты, пропорции и коэффициенты: вероятность используется большей частью в актуарных (т. е. при страховании жизни) целях. Только с начала ХХ века слово «статистика» стало
использоваться для обозначения отдельного факта.

11

Математическая статистика появилась как ветвь математической теории
вероятностей в конце XVIII века в работах таких континентальных математиков, как Якоб Бернулли, Абрахам де Муавр, Пьер-Симон Лаплас и Карл
Фридрих Гаусс.
В конце XIX века математическая статистика начала оформляться в полноценную науку благодаря работам Фрэнсиса Исидро Эджуорта (1845–
1926), Джона Венна (1834–1923), Фрэнсиса Гальтона (1822–1911), Уолтера Фрэнка Рафаэля Велдона (Weldon) (1860–1906) и Карла Пирсона
(1857–1836).
Наше трио применило идеи Чарльза Дарвина к измерению биологической
изменчивости, которое потребовало новой статистической
методологии.









12



Математическая статистика охватывает научные дисциплины, включая анализ изменчивости, в основе которого лежит матричная алгебра. Математическая статистика имеет дело со сбором, классификацией, описанием и интерпретацией данных, полученных из соцопросов, научных экспериментов
и клинических испытаний. Вероятность используется для установления критериев статистической значимости и соответствующих статистических тестов.
Математическая статистика
анализирует данные и может быть использована при создании статистических
прогнозов о населении.

Более
того, она пользуется
индивидуальными различиями в группе, оценивая распространенность этой статистической
изменчивости посредством таких
методов, как стандартное отклонение и отклонение на интервале.
Подробнее мы рассмотрим
данные методы позднее.

Демографическая
статистика оперирует средними значениями, в то время как
математическая использует вариативные значения (понятие
изменчивости).

Если говорить в таком ключе, статистика является технической наукой,
и коль скоро речь идет о математической статистике, необходимо понимать статистические идеи, которые лежат в основе математических
методов.

13

Философия статистики
Выбор изучения средних значений или же измерения вариативных
значений (изменчивости) уходит корнями в философские идеи, над
которыми размышляли ученые-статистики, естествоиспытатели и математики на протяжении XIX века. Акцент, сделанный на статистических
средних значениях, идет от идеи
философского детерминизма
и идей о типологии биологических видов, которые увековечили идею идеализированного
среднего.
Детерминизм говорит о том, что
есть порядок и совершенство
во вселенной...
Следовательно, изменчивость — это дефект, источник ошибок, который необходимо искоренить, так
как он мешает плану Бога
и смыслу существования
Его мира.

14

Типологическое рассмотрение видов, которое властвовало над умами таксономистов*, типологов и морфологов до конца XIX века, способствовало
росту популярности морфологического понятия вида. Согласно этому понятию, виды рассматривались как представители идеального типа.

Существование идеального типа было выведено из некоторого морфологического сходства, по критерию которого типологи различали виды. Из
этого наблюдения можно было сделать вывод, что количество видов быстро растет, так как любое отклонение от типа приводит к классификации
новых видов.
Подлинное изменение, согласно морфологическому понятию вида, возможно только благодаря скачкообразным образованиям новых видов,
имея в виду, что новые виды возникают скачкообразно в каждом отдельном поколении. Так как теория эволюции Дарвина говорит о «постепенных» изменениях, она была несовместима с эссенциализмом**.

* Т а к с о н о м и с т ы классифицируют организмы по группам.
Т и п о л о г и классифицируют организмы согласно общим типам.
М о р ф о л о г и изучают строение организмов.
** Э с с е н ц и а л и з м (от лат. essentia — «сущность»), — философское учение, согласно которому у каждой вещи есть глубинная скрытая реальность, истинная природа, характеризующаяся неизменным набором качеств и свойств. Возникло и развивалось в Средние века в рамках схоластической философии. — Прим. науч. ред.

15

Дарвин и статистические
популяции
Переход к измерению статистической изменчивости хорошо просматривается в идеологическом сдвиге, который произошел в середине XIX века,
когда Чарлз Дарвин (1809–1882) начал изучать мельчайшие биологические вариации у растений и животных.



Когда в 1859
году я предположил,
что эволюция происходит благодаря постепенному накоплению мельчайших
различий между отдельными
особями, я представил биологам идею непрерывных
вариаций.

Дарвин не только показал, что изменчивость можно
измерять и получать ценную информацию, рассматривая статистические популяции, а не отдельные типы
или сущности, но он также занимался различными типами взаимосвязи (сorrelation), которые можно было бы
использовать для объяснения естественного отбора.
Как сказал в 1931 году биолог-эволюционист Сьюалл Райт (Wright) (1899–1988):

Дарвин был первым человеком, который рассмотрел процесс
* В генетике — так называемая реверсэволюции как в своей
ная мутация, т. е. восстановление у мутаноснове статистический процесс.
тного организма исходной структуры

ДНК. — Прим. науч. ред.

16

. 


Каждая идея Дарвина, от изменчивости, естественного отбора, наследственности до мутаций к исходному виду*, требовала статистического
анализа.

Викторианские ценности
Несмотря на определенное развитие демографической и математической
статистики в континентальной Европе, стремительному росту демографической статистики в середине XIX века и математической статистики на
рубеже XIX–XX веков мы обязаны этим викторианцам*.

! 

 
  


"#$% 

*

'



&

&

 / 4 &  / 4
:"


"#$% "

&**

" 
*&

*
  2  *  */ 4 , &  


2** "#

6
  2'" / & 

        
! 


  7 & "  ' 
   
2"#



/ 

"&

&



6
'/

&, /%&/*

/



%
*

+'"



'

Развитие обеих ветвей статистики происходило в широком контексте викторианской культуры измерений. Викторианцы высоко ставили точность и аккуратность, как в материальных, так и в духовных сферах, потому что это
позволяло получать более надежную информацию. В расширяющейся индустриальной экономике было необходимо получить те результаты, которые
затем можно было бы повторно воспроизвести на международном рынке.
* В нижеследующем перечне ученых явным образом не хватает крупных
немецких (В. Лексис) и российских (В. И. Борткевич, А. А. Чупров, Е. Е. Слуцкий)
исследователей. — Прим. науч. ред.

17

Инженеры и физики днями и ночами работали в лабораториях,
записывая и измеряя электрические, механические и физические постоянные для машин,
оборудования и прочих объектов.
Биологи и геологи собирали
как можно больше данных
в своих экспедициях для
создания географических
карт, измеряли долготу
и широту и классифицировали новые
виды растений
и животных.

Доктор Джон Сноу
Статистика
предложила способ, которым можно
было определить количество измерений
в сфере жизнедеятельности человека, в особенности тех, которые касались
здоровья и гигиены
граждан, эпидемий,
наследственности
и медицины.

18

С чего все началось?
Подсчет населения и проведение переписей является одной из наиболее древних известных человечеству практик статистики: вавилоняне, египтяне и китайцы собирали статистические данные о своем
населении, в основном для поиска пригодных для военной службы
граждан, а также для установления ставок налоговых сборов. В первом тысячелетии до нашей эры римляне и греки проводили переписи. Слово «Census» происходит от римских цензоров, чьей обязанностью было подсчитывать количество людей. Римская перепись состояла из списка граждан Рима и их собственности.
Скандинавские страны ввели первые национальные переписи в середине XVII века. Первая перепись, проведенная в США в 1790 году,
показала пропорциональное представительство при выборе конгрессменов в тринадцати американских штатах.
Одиннадцать лет
спустя, в 1801 году,
в Великобритании
была введена ежегодная
государственная
перепись.

Метрические книги
Как подсчитывали людей до введения государственных переписей? Метрические книги давали ценную информацию для понимания некоторых
ранних идей о населении. В начале XIV века во Франции, в Бургундии, регистрировали смерти и браки, а к XVI веку регистрация крещений, браков
и смертей стала обязательной для французских священников. В Англии
ответственность за сбор подобной информации в 1538 году была возложена на местное духовенство благодаря Томасу Кромвелю, лорду-канцлеру короля Генриха VIII.









Я дал указание
священникам каждого
прихода записывать каждое крещение, свадьбу
или похороны, которые
им необходимо было
обслуживать.

Однако раскольники и люди иных вероисповеданий были исключены из записей, так же как и многие другие внутри англиканской церкви, которые не
желали или не могли позволить себе оплачивать регистрацию в церкви.

20

Лондонские списки умерших
На протяжении XVII и XVIII веков в Англии росло количество людей,
которые придерживались религий, отличных от официальной. Несмотря на то что иудеям разрешалось собирать информацию, квакерам*,
а также другим церквам, отделенным от государства, не позволялось
собирать данные, так как они считались неприемлемым источником
для государства, находясь вне официальной системы.
С учетом того что большое количество людей не разрешалось подсчитывать, нарастал интерес к тому, убывает или же растет население Англии.
Джон Граунт был одним из первых, кто
в своей работе «Естественные и политические наблюдения на основе лондонских
списков умерших» попытался использовать
информацию 10 000 метрических записей
Англии и Уэльса, в которую входили сведения о поле, возрасте и причине смерти.
Граунт использовал термин «политическая
арифметика» для описания своей работы — этот термин ему подсказал его друг
Уильям Петти.

Обложка книги гласит:

Приводящее в ужас обследование Лондона
на основе всех списков умерших.
От нынешнего года: начиная с 17 декабря
1664-го и заканчивая 19 декабря 1665-го.
Известно также как общий или
круглогодичный, список. Согласно отчету,
сделанному для Его Превосходнейшего
Величества Короля вместе с объединением
приходского духовенства, Лондон.

* Протестантское христианское движение, возникшее в годы революции
в середине XVII века в Англии и Уэльсе и характеризующееся независимостью
своих религиозных организаций и объединений. — Прим. науч. ред.

21

Таблицы смертности Галлея
Выдающийся труд, основанный на данных о смертности в XVIII веке,
был связан с созданием таблицы продолжительности жизни. Идея
была предложена Джоном Граунтом, а затем реализована Эдмундом
Галлеем (1656–1742), имя которого было присвоено известной комете.

Я впервые
проанализировал
состав комет в 1676
году и создал первую
научную таблицу
смертности
в 1693 году.

Голландский астроном и политический арифметик Николас Стрюик (Struyck) (1687–1769) создал
свои работы на основе трудов Галлея о кометах
и о размерах населения. Стрюик провел широкомасштабные исследования населения в Нидерландах, но его главной целью была оценка приблизительного количества населения Земли. Его
волновал вопрос о том, растет, остается таким же
или же сокращается население Земли*.

* Сравнительно недавно заново открытое имя в науке, в классическом
исследовании И. Тодхантера (История математических теорий притяжения
и фигуры Земли от Ньютона до Лапласа / Пер. с англ. М., 2002) сведений
о Стрюике нет. — Прим. науч. ред.

22

Мальтузианское население
Пока многие ученые пытались подсчитать население страны или мира,
экономист Томас Роберт Мальтус (1766–1834) в своей знаменитой работе
«Опыт закона о народонаселении» (1798) показал, что неконтролируемое
людьми население Земли будет постоянно увеличиваться (превышая необходимые средства существования) и что улучшение человеческой жизни
может быть достигнуто жесткими ограничениями рождаемости.







Если население будет расти
быстрее, чем количество
требуемых ресурсов (например,
пищи), начнется «борьба за существование», в которой наиболее
сильные индивиды выживут
и дадут жизнь своим
потомкам.



Этой фразой
я впоследствии воспользовался в своей теории естественного отбора.


 

Мальтус полагал, что население растет экспоненциально (2, 4, 8, 16, 32
и т. д.), в то время как запасы продовольствия растут по арифметической линейной прогрессии (2, 4, 6, 8, 10 и т. д.). Гипотеза Мальтуса говорит
о том, что живущее в каждый настоящий момент население будет иметь
тенденцию превышать запас имеющегося продовольствия.

Население

Запасы продовольствия

23

Демография — наука о населении
Всякая попытка улучшения условий жизни низших слоев населения путем
увеличения их доходов или развития сельскохозяйственного производства
казалась Мальтусу бесполезной. Он считал, что для сокращения роста населения необходима «сдерживающая сила морали». Демография началась как количественное изучение бедности.
В конце XVIII века Мальтус считал, что рост населения будет снижать благосостояние, однако только к середине XIX века количество статистических
данных, собранных в Европе и США, стало достаточным для создания
науки о населении. Прародитель демографии Жан-Поль Ашиль Гийяр
(Guillard) (1799–1896) впервые использовал слово «демография» для обозначения новой науки в 1855 году.

Демография изучает размеры,
условия, структуру и перемещение населения, так же
как демографическая статистика
изучает рождаемость, браки
и смертность для описания
того же самого населения.

24

На протяжении Наполеоновских
войн философ-утилитарист
Иеремия Бентам (1748–1832)
обнаружил, что правительство
не знает, сколько бедняков
получали пособие и даже не
знает о количестве денег, находящихся в обороте.

Соревнование между Англией
и Францией, обостренное Французской революцией и погружением Европы в войну после
1793 года, заставило английское
общество задуматься о количестве людей, годных к военной
службе, в последнем десятилетии XVIII века.

!





Отсутствие столь
необходимой информации
говорит о фундаментальной неустойчивости в государственных
делах, а также указывает на необходимость государственной
системы сбора данных.

25

Лондонское
статистическое общество
Отсутствие официальных учреждений послужило толчком к созданию
Лондонского статистического общества (в настоящее время известного
как Королевское статистическое общество) в 1834 году. Мальтус совместно
с бельгийским статистиком и метеорологом Адольфом Кетле (1796–1874)
и Чарльзом Бэббиджем (1791–1871), который разработал первую вычислительную машину (предшественник компьютера), приложили усилия
к созданию такого общества.












Нашим первым советом
являлось создание государственной системы по сбору информации о населении
с центральным офисом в Лондоне.
Вскоре, в 1836 году, был
принят закон об учете гражданского населения, который требовал ведения отчетности
рождаемости, бракосочетаний
и смертности.
!! ;

!

Управление записи актов гражданского состояния (УЗАГС) было создано,
предоставляя Англии и Уэльсу систему по сбору демографических данных,
уникальную для Европы того времени. Первая полноценная перепись была
проведена в Англии в 1851 году и включала информацию о возрасте, поле,
профессии и месте рождения, а также данные о глухоте и слепоте.

26

Эдвин Чедвик
и санитарные реформы
Первая перепись предоставила детальную информацию о количестве
смертей от болезней и помогла осознанию ужасающих санитарных условий в городах. Перенаселение часто приводило к жилищным условиям,
в которых не предусматривалось адекватной вентиляции и гигиены. Сточные колодцы были переполнены, а канализации вели напрямую в реки,
увеличивая опасности для здоровья окружающих.
Главной фигурой санитарной реформы и использования для нее статистических данных был либерально настроенный Эдвин Чедвик (1800–1890),
который участвовал в реорганизации государственной помощи беднякам
и нуждающимся.





Успех санитарных реформ показал важность сбора статистических данных.

Когда главным вопросом английской
жизни стал вопрос о гигиене,
статистику начали использовать
для измерения уровня здоровья нации.

27

Уильям Фарр
и демографическая статистика







После того как УЗАКС было создано, Чедвик рекомендовал назначить
начальника службы регистрации актов гражданского состояния для фиксирования рождений и смертей. Парламент создал такую должность,
и Томас Генри Листер (Lister) (1800–1842), родственник одного широко
уважаемого британского министра, был на нее назначен.

Однако было необходимо создать
команду, которая бы занималась сбором
и обработкой статистических данных,
и Листер пригласил на должность
Уильяма Фарра (1807–1893) для анализа статистики, так как он был единственным врачом, который уделял внимание
демографической статистике.
Работа Фарра в качестве суперинтенданта по статистике при начальнике службы
регистрации в 1839 году была поворотной
точкой в развитии английской профилактической медицины и медицинской
статистики. Его способы работы с демографической статистикой предоставили
модель для всех остальных стран. Вместе
с Томасом Роу Эдмондсом (Edmunds)
(1803–1899) они создали современную
ю
науку, называемую демографической
й

 



28





Флоренс Найтингейл:
увлеченный статистик
Статистические труды Фарра и Кетле вдохновили Флоренс Найтингейл (Nightingale) (1820–1910), одну
из наиболее ярких представителей
викторианцев, известную многим
как «леди со светильником», которая
сделала профессию сестры милосердия уважаемой. Тем не менее
нам мало известно о ее роли «увлеченного ученого-статистика», — эпитет, данный в 1913 году ее первым
биографом, сэром Эдвардом Куком.

Впрочем, с учетом
моих возможностей как статистика я смогла разработать необходимые измерения для оценки санитарной
реформы в полевых госпиталях
и больницах Лондона.

Используя методы и идеи
статистиков-викторианцев среднего периода
(mid-Victorian), Найтингейл
убедила многих государственных чиновников
в важности того опыта,
который она получила во
время Крымской войны,
и показала, что смертность в войсках может
быть снижена.

29

В молодости Флоренс встречала на званых обедах множество викторианских ученых, включая
Чарльза Бэббиджа. Она была так увлечена математикой, что к двадцати годам брала частные
уроки у кембриджского математика Джеймса
Джозефа Сильвестра (1814–1897).
Каждым утром Флоренс изучала статистические
данные о здравоохранении и больницах, собрав
у себя внушительный массив статистических данных. Ее увлеченность была настолько сильной,
что ей было «видение полного оживления и перерождения длинного столбца цифр».

Статистика —
самая важная наука
в мире. Чтобы понять мысль
Бога, мы должны изучать
статистику, так как она
является мерой его
замысла.

Флоренс Найтингейл
разделяла мысль Фрэнсиса Гальтона о том, что
статистический подход
к изучению естественных
феноменов является «религиозной обязанностью
каждого человека».

30

Статистика Крымской войны
В 1854 году близкий друг Флоренс
военный министр Сидни Герберт
(1810–1861) обратился к ней с предложением.



!



Я попросил
ее быть «суперинтендантом учреждения
сестер милосердия в английских военных госпиталях в Турции».

Вместе с группой из 38 сестер милосердия она должна была заботиться
о британских военных, сражавшихся на Крымской войне.
Ее связи в правительстве и годы, потраченные на защиту профессии сестры милосердия, позволили состояться этому исключительному назначению. До этого времени женщинам не позволялось состоять на службе.
В газете «Таймс» Герберт отвечал на гнев людей, вызванный отчетами
о войне…

«...отчеты
о бедствиях таких простых солдат, как мы,
вызванных некомпетентностью армейских командиров».

Герберт надеялся, что присутствие Найтингейл успокоит общественность. Читатели «Таймса» пожертвовали
ей 7000 фунтов на личные
нужды, которые в конечном
счете пошли на улучшение
полевых госпиталей, в то
же время вызвав зависть
со стороны других военных
врачей и офицеров.

31

Как только Найтингейл прибыла в Крым, она обнаружила абсолютный
хаос, царивший в госпитале в Скутари: не было мебели, еды, посуды,
простыней и кроватей, зато повсюду были крысы и блохи. В госпитале
она раздобыла чашки для чая, которые использовались солдатами для
умывания, еды и питья.
Она была единственным человеком с финансами и авторитетом, который мог бы исправить эту чудовищную ситуацию. Найтингейл заказала
посуду, рубашки, простыни, покрывала, сумки для матрацев, столы для
операций, ширмы и льняную ткань для перевязок. Вскоре она организовала прачечную и кухню, а большую часть еды поставляла компания
Fortnum & Mason.

Я была постоянно на ногах и была
единственной медсестрой, которой было
позволено заходить
в палаты после
20:00.

Мы назвали ее
«Леди со светильником».

32

Статистика смертности в Крыму
Найтингейл была очень возмущена небрежностью, с которой велась статистика в военных госпиталях. Связь между госпиталями была ужасной,
и не было единой формы отчетности. Каждый госпиталь использовал
свою классификацию болезней, ведя отчетность в различных формах, что
делало невозможным сопоставления. Даже количество смертей подсчитывалось невнимательно: сотни мужчин были похоронены, однако их смерти
не были зафиксированы.

Я обнаружила, что годовая смертность от таких болезней,
как брюшной и сыпной тиф, а
также от холеры составляет 60
процентов. Таких процентов
не было даже во времена
великой чумы в Лондоне.

В возрасте
между 25 и 35
годами смертность
в военных госпиталях
была в два раза выше,
чем в обычных
больницах.

33

Полярный график

АВ

И ЮЛ Ь

ГУ
СТ

БОЛГАРИЯ

Б РЬ

А П РЕ
ЛЬ
1854

М

АЙ

ИЮНЬ
СЕ Н ТЯ

Несмотря на то, что различные статистики-демографы XIX века использовали
целый ряд графиков и таблиц для своих
результатов, Найтингейл способствовала популяризации наглядных диаграмм
для демонстрации статистических результатов. Она разработала полярный
график, разделенный на 12 одинаковых
секторов. Каждый сектор обозначал месяц в году, а сам график отображал
изменения с течением времени.

КРЫМ
Я БР

1855

ОК Т

1855

Ф

Я Н ВА

РЬ

ОТ БОЛЕЗНЕЙ

Б РЬ

СМЕРТИ

Ь

1855

Мой график не только наглядно представил количество излишних
смертей в войну, но также убедил докторов, что многие смерти можно предотвратить, проведя санитарные реформы в госпиталях.

После войны Флоренс писала Кетле: «Моя увлеченность
статистикой происходит не столько от любви к науке,
сколько от фактов страданий и мучений людей, которые я так часто наблюдала из-за безразличия законов
и правительств».

34

ДЕК А

ОТ ДРУГИХ ПРИЧИН

РА
Л

СМЕРТИ

ЕВ

ОТ РАНЕНИЙ В БИТВАХ

РЬ

СМЕРТИ

ЯБ

МАРТ

НО

М А РТ

Ь

АПРЕЛЬ 1854 —

Вероятность
Как статистики XIX века сводили
данные к чему-то более управляемому
и, значит, полезному? Хотя данные уже
записывались в диаграммы и таблицы, до
конца XIX века двумя основными статистическими инструментами оставались вероятность и средние значения.
Вероятность является одним из старейших статистических понятий, его использовали еще в начале XIV века как метод при
решении задач, основанных на случае.
Есть несколько подходов к понятию вероятности:
1.
2.
3.
4.
5.

Субъективный.
Игры со случайным исходом.
Математический.
На основе относительной частоты событий (частости).
Байесовский.

Вместе с шестью основными распределениями вероятностей:
1.
2.
3.
4.
5.
6.

Биномиальное распределение.
Распределение Пуассона.
Нормальное распределение.
Распределение хи-квадрат.
t-распределение.
F-распределение.

Первые три распределения мы
рассмотрим на с. 46–50. Последние три распределения используются для определения статистической значимости. Значимость
по тесту хи-квадрат рассмотрена
на с. 153–156, t- и F-распределения будут рассмотрены на с. 165
и 170 соответственно.

Есть два типа статистического распределения: распределение вероятностей, которое описывает возможности того или иного исхода в выборке,
и частоту, с которой каждый из исходов будет иметь место; и частотные
распределения (см. с. 74, 76, 79–85), которые описывают частоту возникновения каждого исхода.
Статистики используют распределения вероятностей для интерпретации
набора данных, которые анализируются различными статистическими методами. Частотные распределения помогают перевести большое количество чисел и групп чисел в более удобную для работы форму и показывают, как часто встречается тот или иной исход каждого события в группе.

35

Переменные величины
Переменные величины являются характеристикой индивида или системы,
которые можно измерить и подсчитать. Они могут изменяться во времени
или от индивида к индивиду.
Переменные величины можно разделить на два типа:
Количества,
которые можно
измерить, называемые
непрерывными (например,
рост, масса тела
или кровяное
давление).

Категории, которые поддаются подсчету, называемые дискретными (например, цвет глаз,
пол или политическая
принадлежность).

ДИСКРЕТНЫЕ
ВЕЛИЧИНЫ:

..

ТО, ЧТО ВЫ МОЖЕТЕ

ОТМЕТИТЬ ГАЛОЧКОЙ.

ЦВЕТ

НЕПРЕРЫВНЫЕ
ВЕЛИЧИНЫ:

ТО, ЧТО МОЖНО УЗНАТЬ,
ВОСПОЛЬЗОВАВШИСЬ
ШКАЛОЙ.

ГЛАЗ

" 
*&

К АРИЙ
ГОЛУБОЙ
ЗЕЛЕНЫЙ
СЕРЫЙ

ПОЛ
МУЖСКОЙ
ЖЕНСКИЙ

ПОЛИТИЧЕСКАЯ
ПРИНАДЛЕЖНОСТЬ

РАБОЧИЕ
КОНСЕРВАТОРЫ
ЛИБЕРАЛЫ

Эти переменные величины можно классифицировать более детально,
о чем мы поговорим позднее.

36

Субъективный подход
к вероятности заключается
в вере (belief) в наиболее
рациональный исход.

Вероятность
определяется неким
способом ставки, таким
как на скачках:
В какой форме
была лошадь?
Какие условия скачек?
В чем заключается
смысл соревнования?

Возможные исходы часто отражают личное
мнение. Два человека могут высказать разные предположения о вероятности исхода
(наступления события), но нет никакой объективной процедуры, которая докажет, что
один прав, а другой нет.
Азартная игра, или пари, определяется
как схема ставок, основанная на том, какую
вероятность предсказывает участник игры.
Идея состоит в том, чтобы обнаружить вероятность, которую определяет сам участник,
а не вероятность, проистекающую из внешнего мира. Проблема заключается в том,
что люди с одинаковыми знаниями и навыками приходят к разным ответам.


37

Игры со случайным
исходом
Игры, основанные на случайности, появились
в тот момент, когда человек смог бросить кости.
Согласно археологическим исследованиям Северного Ирака, человек играл в подобные игры
в Месопотамии еще до начала III тысячелетия
до н. э. Кости также использовались во времена 18-й династии в Египте (1400 год до н. э.).
Первые кости были сделаны из длинных
костей животных, выточенных в форме квадрата. Астрагал (бедренная кость небольшого
размера) обычно использовался в качестве
игровых костей,
которые бросали
древние греки,
а затем римляне.



Я отметил три различных
исхода, которые могут
получаться броском трех
костей в своей «Божественной комедии».

Данте
Алигьери
(1265–1321)

38

Итальянский физик и математик эпохи Возрождения Джероламо Кардано (1501–1576) был заядлым игроком, который часто зарабатывал игрой
себе на жизнь. Он написал одну из первых работ по теории вероятности:
«Liber de Ludo Aleae» («Об азартных играх»), опубликованную посмертно
в 1633 году. Эта книга служила руководством для игроков.







В своих вычислениях я смог просчитать удачу.

Однако удача исчезла в XVII веке, когда возникла классическая теория вероятностей. Согласно этой теории, весь набор возможных исходов следует
включать в математическую вероятность. Поэтому даже удачливому Кардано пришлось соответствовать этим математическим требованиям.

39

Де Муавр и азартные
игры в Сохо*
В 1718 году французский математик Абрахам де Муавр (1667–1754) написал труд по теории вероятностей Doctrine of Chance: or A Method of
Calculating the Probabilities of Events in Play («Учение о случае, или Метод
вычисления вероятностей событий в играх»). Этот труд основывался на
проблемах преимущества игроков и размерах их ставок в играх. Как
и труд Кардано, работа де Муавра служила руководством для игроков.
Он был вынужден перебраться из Франции в Англию в 1685 году из-за
отмены Людовиком XIV Нантского эдикта, который заставил сотни тысяч
французских протестантов бежать из Франции.
Во время пребывания в Лондоне де Муавр познакомился с Эдмондом
Галлеем и Исааком Ньютоном, а также был избран членом Лондонского
королевского общества в возрасте тридцати лет.





Так как мне
нужно было чем-то
зарабатывать,
я давал уроки
математики игрокам
в Сохо.

* Сохо — район французcких и итальянских ресторанчиков и ночных клубов в
Лондоне, район богемы. — Прим. науч. ред.

40

Математическая теория
вероятностей
К концу XVII века идеи вероятности в комбинаторике (раздел математики,
изучающий перестановки и комбинации) были применены к играм со случайным исходом такими учеными, как:

тиан

Готфри
д Вильге
л ьм
Лейбни
ц (1646 –
1716)

Хрис
695)
25 –1
нс (16

ль
Блез Паска
(1623 –1662)

Джон Арбу тн
от (1667–1735)

Пьер де Ферма (1601–1665)

е
Гюйг

…но они не знали, как подсчитать неопределенность.
Математическая теория вероятностей дала статистикам инструмент, который избавлял от сложностей, показывал, какие закономерности можно
вывести из случая, и даже сводил сам случай к набору законов.
Этот подход описывал долгосрочную закономерность в случайных событиях, а также вычислял отношение числа благоприятных случаев к числу
возможных случаев:

ƣƫǽƥ́Ʈ̃ƩƹƯƭЇɖȒƫΔƲǽƩ
Ƥ́ƨƬ́ƧƭЇɖȒƫΔƲǽƩ
41

В таком теоретическом подходе не учитывались реальные объекты, нужно
было лишь предположить ряд гипотетических условий, а затем подсчитать
вероятность, используя биномиальное распределение (см. с. 46–48).

Следовательно, можно гипотетически предположить, что монета является доброкачественной (она с одинаковой вероятностью падает или
орлом, или решкой)...

...и подсчитать вероятность каждого случая, подбрасывая монету много раз и подсчитывая соответствующее число
выпавших комбинаций орлов и решек.

Такое развитие математики, возникшее в XVII веке,
послужило основанием
для формальной теории
в начале XVIII века, однако
использование вероятности
в статистике началось только в конце XIX века.

42

Частость события
Частость события — это подход, который позволяет производить формальные выражения вероятности (P, A) о недостоверных событиях, где
P — это вероятность недостоверного события A. Следовательно, вероятность возникновения события пропорциональна числу возникновения таких же событий на длинном временном интервале.

Своевременно

С опозданием

Например,
самолеты прибывают
согласно расписанию
в 80% полетов, вероятность
своевременного прибытия самолета —
0,80.

Вероятность своевременного прибытия = 0,80

Это более научный и объективный подход, нежели другие типы вероятности, используемый при исследовании внешнего мира и реально существующих объектов. Можно подбросить монету 100 раз, записать количество
выпавших орлов и решек и получить требуемое соотношение, разделив
количество выпавших орлов на общее количество бросков.

43

В своих ранних лекциях по статистике Карл Пирсон разбрасывал
по полу аудитории сотни монет
и просил студентов собрать их
и отсортировать согласно выпавшим сторонам монеты.

Эксперимент
Пирсона показывал, что
приблизительно половина была
орлом вверх, а половина решкой
вверх, доказывая тем самым закон больших чисел теории
вероятностей.

Но как мы можем понять, сколько раз стоит подбросить
монету (или бросить кости) для того, чтобы провести качественный эксперимент? Если вы будете подбрасывать
монету и получите 60 орлов и 40 решек, у вас вряд ли
получится повторить результат. Вероятность будет всегда
изменяться, и к тому моменту, как она станет устойчиво
постоянной (stable), ваша монета будет затерта с обеих
сторон.
Выходом из такого затруднения является коэффициент относительной частоты событий, или коэффициент частости.
Он получается как отношение числа испытаний, в которых
данное событие появилось, к общему числу фактически
проведенных испытаний.

44

Байесовский подход
Теорема Байеса —
это формула, которая
показывает, как существующие разумные
предположения (beliefs),
формально записанные
как распределения вероятности, изменяются
под влиянием новой
информации.

Математик Томас Байес
(или Бейес (Bayes)) (1702–1761)
впервые использовал вероятность индуктивным путем,
учреждая математическую
основу для выведения вероятности. Однако термин
«Байесовский»применительно к статистике вошел
в обиход только в 1950 году.
Мой подход —
это способы подсчета
количества раз не случившегося события для
определения вероятности
возникновения искомого
события в будущих
испытаниях.
Он связан
с субъективной
степенью уверенности
(belief) в процессе индукции и измеряет благоприятность наступления
события, о котором
мы не всё знаем.

Пример.
Теорема Байеса может быть использована в диагностике, которую проводят
терапевты и лечащие врачи. Эти доктора обычно начинают с априорного
предположения о том, болен пациент или нет конкретной болезнью (основываясь на знании симптомов пациента и распространенности заболевания), и это знание может быть изменено или улучшено посредством результатов анализов пациента.

45

Распределение вероятностей
Биномиальное распределение — это дискретное распределение вероятностей, показывающее вероятность двух исходов события, которое
может произойти, а может и не произойти. Оно описывает возможное
количество случаев, в которых случается событие на протяжении последовательности наблюдений. Например, оно дает возможность вычислить
вероятность выпадения пяти решек при подбрасывании десяти монет.

РАСШИРЕННОЕ
БИНОМИАЛЬНОЕ
РАСПРЕДЕЛЕНИЕ
ПРИ

Это распределение было введено в науку швейцарским математиком
Якобом Бернулли (1655–1705), прославленная работа которого, — Ars
conjectandi («Искусство предположения»), — была опубликована посмертно
в 1713 году. Эта работа знаменует начало математической теории вероятностей.

Я показал, что возможно
оценить неизвестную
вероятность события, используя частость
исходов.

Были созданы модели экспериментов биномиального распределения, в которых подсчитываются повторяющиеся
двоичные исходы. Каждый из
двоичных исходов называется
«испытанием по схеме Бернулли».

!

46





Биномиальное распределение (p+q)n определяется количеством наблюдений n и вероятностью появления события, обозначаемую p+q (два возможных исхода).
Оно предоставляет модель для измерения различных вероятностей исходов, которые могут произойти. Для определения вероятности каждого исхода биномиальное распределение необходимо расширить количеством
наблюдений, что достигается путем возведения p+q в степень n.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ,
ПОСТОЯННО СТРЕМЯЩЕЕСЯ
К НОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ.

Биномиальное распределение
используется, когда исследователь заинтересован
в появлении события.

Например,
когда изобретаются
новые лекарства и ученый-медик хочет знать,
умрет пациент или
выживет.

Подобные вероятностные распределения соотносятся с различными типами переменных величин. Дискретные вероятностные распределения,
такие как биномиальное, используют дискретные данные (например, орел
или решка в подбрасывании монеты), в то время как непрерывные распределения, например нормальное (или Гауссово), используют непрерывные величины, такие как рост и масса тела.

47

В следующем примере бросания монеты количество наблюдений n=2,
количество исходов 2 (орел или решка). Для проверки идеальной монеты
биномиальное распределение следует расширить для приведения в соответствие количества подбрасываний монеты.
Расширим биномиальное распределение (p+q)n, возводя p+q в степень n
(что означает умножение числа само на себя).
• p и q в сумме должны давать 1
(при бросании монеты два исхода: p = ½
и q = ½).
• n = количество испытаний или бросков
(2 в нашем случае).
• Биномиальное распределение — это (p+q)2.
• Рассмотрим следующее расширение этого
распределения на случай подбрасывания
монеты.
Допустим, монета была подброшена
10 раз, и каждый раз выпадал орел. Биномиальное распределение будет происходить согласно законам, описанным
выше. А вероятность наступления подобного исхода равна (½)10 (т. е. ½, возведенная в 10-ю степень), т. е. 1/1024).
Это значит, что вероятность выпадения
10 орлов подряд меньше,
чем 1 раз на 1000 случаев.

РАСШИРЕННОЕ

БИНО -

МИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ПРИ

48

Распределение Пуассона
Распределение Пуассона, открытое Симеоном Дени Пуассоном (1781–
1840) — это дискретное распределение вероятностей, используемое для
описания появления неблагоприятных исходов при большом количестве
независимых и повторяющихся испытаний. Такое распределение является
хорошим приближением биномиального распределения, если вероятность
низкая, а число испытаний велико.
РАСПРЕДЕЛЕНИЕ

ВЕРОЯТНОСТЕЙ

ДИСКРЕТНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Оно показывает
вероятность появления
событий за определенный промежуток времени, при условии, что
события возникают с известной
средней вероятностью и не зависят друг от друга.







При анализе статистики смертности зачастую используется распределение
Пуассона в предположении, что смерти среди населения от большинства
заболеваний возникают независимо друг от друга и обладают свойством
случайной величины.

49

Нормальное распределение
Нормальное распределение — это непрерывное распределение, и оно
связано с биномиальным. По мере того как n стремится к бесконечности,
биномиальное в предельном случае достигает нормального распределения. На графике это будет выглядеть как бесконечное количество бесконечно малых прямоугольников, и тогда биномиальное распределение
станет нормальным.

БИНОМИАЛЬНОЕ

НОРМАЛЬНОЕ

РАСПРЕДЕЛЕНИЕ

РАСПРЕДЕЛЕНИЕ

БИНОМИАЛЬНОЕ,

КОТОРОЕ СТРЕМИТСЯ К НОРМАЛЬНОМУ

График также известен как график кривой нормального распределения,
иногда (не вполне точно) называемого Гауссовым распределением. Такое распределение долго использовалось как мерило и критерий для
сравнения с другими типами статистических распределений. Оно играет
ключевую роль в современной статистике, так как позволяет статистикам
интерпретировать данные, используя различные статистические методы,
которые зачастую моделируются на основе нормального распределения.

50

Астрономические
наблюдения
Идея кривой нормального распределения
берет свое начало в вычислениях комбинаций наблюдений астрономов. Они использовали «закон ошибок» (т. е. кривую нормального распределения) для объединения
линейных уравнений своих наблюдений
в астрономии и геодезии*.
Астрономические методы зачастую
были процедурами с узкой областью применения. Они имели косвенное отношение к формальным
моделям вероятности, требовали
взаимодействия группы ученых.
Но когда математические статистики стали разрабатывать статистические методы, это позволило
анализировать астрономические данные
в одиночку.
Труд де Муавра
об играх со случайным исходом
и его использование биномиальной теоремы предоставили в 1733 году первую известную кривую нормального распределения,
которую сперва называли «законом ошибок».
Он также составил первую таблицу
вероятностей для нормального
распределения.

* Наука о форме и областях Земли.

51

Центральная предельная теорема
Французский математик и астроном Пьер-Симон Лаплас (1749–1827) занимался усовершенствованием теории вероятностей в качестве инструмента,
который может снизить и измерить недостоверность данных. К 1789 году
он понял, что на измерения оказывают влияние множество независимых
друг от друга небольших ошибок, и показал, что закон ошибок может быть
выведен математически. Затем он внес свой главный вклад в статистику,
написав в 1810 году труд о Центральной предельной теореме.
Эта теорема была одним из крупнейших достижений в теории вероятностей...

...так как
она показала,
что чем шире
выборка, тем
ближе к нормальному распределению будет
результат.



 

Или, как сказали бы статистики: с увеличением выборки выборочное распределение средних стремится к кривой нормального распределения, вне
зависимости от отклонений от нормальности в распределении населения.

52

Причина того, почему многие переменные величины — такие как рост или
интеллект — распределены согласно нормальному распределению, кроется в Центральной предельной теореме Лапласа.
Математическое обоснование этой теоремы гласит, что данные, на которые влияют множество небольших и независимых случайных факторов
(effects), будут приблизительно нормально распределены.

 -




 

53

Гауссова кривая и принцип
наименьших квадратов
Работы Лапласа оставались наиболее влиятельными в теории вероятностей до конца XIX века, хотя Карл Фридрих Гаусс (1777–1855) усовершенствовал идею Лапласа в ясных вероятностных формулировках. Одним из
результатов данной работы было в конечном итоге (и в каком-то смысле неправильное) название «Гауссова кривая», тем не
Я признаю́сь,
признаюсь, что
менее впервые открытая Лапласом.

Хотя я
уже открыл его
в 1805 году!

нахожусь в долгу перед
Лапласом, воспользовавшись законом вероятности
в своей работе о движеИ я открыл
ниях небесных тел.
принцип наименьших квадратов
в 1809 году.

Адриен Мари Лежандр (1752–1833)

Принцип наименьших квадратов,
основанный на теории ошибок,
был придуман в начале XIX века
такими математиками и астро
номами, как Гаусс, Лаплас и Ле 
жандр, для того, чтобы определить, например, форму Земли.
Он найдет одно из своих лучших применений в статистике в конце XIX
века при интерпретации статистической регрессии (см. с. 128–131).

54

Что такое нормальность?
Norma является латинским словом для Т-квадрата, который использовался
масонами и плотниками в античности для придания своим изделиям прямоугольной формы. В результате использования ими Т-квадрата прямой
угол стал известен как «нормальный угол», термин, который употреблялся
в геометрии в XVII веке. Гаусс, который изучал кривую нормального распределения в 1809 году, использовал слово «норма» в алгебре в конце
XVIII века.

Н

о

ы
ьн
ал ол
рм уг

й

Слово «нормальный» получило распространение
в XIX веке, сперва в медицинской сфере. Оно рассматривалось, как антоним
слову «патологический»,
однако вскоре стало употребляться ко всему, в особенности
к людям и их поведению.

55

Слово «нормальный», как следствие, употреблялось для выражения того,
какими в действительности являются вещи или какими им следует быть,
и в результате было использовано для описания симметричного распределения в форме колокола. Такой тип распределения часто использовался астрономами с XVII века и статистиками с 1870-х годов.
Тем не менее, как
заметил Ян Хакинг
(Hacking), в основе
слова «нормальный»
лежит дуализм значения.


В то время как «нормальный» обозначает средний или
обычный, а «норма» обозначает идеал, Стивен Стиглер
и Уильям Крускал показали,
что в статистике есть третий
компонент, совмещающий два
первых.





Это случается, когда статистики
отсылают к асимптотическому* нормальному пределу, или «обычному пределу», который не может
быть полностью
достигнут.

56











<

Нормой может быть что-то
обычное или типичное,
тем не менее наши
наиболее мощные этические ограничения
также называются
нормой.

*Асимптотический значит
непрерывно
стремящийся
к определенной кривой, но
никогда не достигающий ее на конечных значениях
переменной.

Именуемое нормальным
распределением
Пока Кетле использовал биномиальный закон для описания этого распределения, Гальтон использовал кривую ошибок и в конечном
счете назвал ее кривой нормального распределения в феврале 1877 года, когда зачитывал свой доклад «Типические
законы наследственности» в Королевской ассоциации
(Великобритания). Американский логик и математик
Чарльз Сандерс Пирс
(Peirce) (1839–1914) и немецкий математик
Я начал использовать термин
«нормальное распределение» в своих
лекциях в октябре
1893 года.



К АРЛ ПИРСОН

Вильгельм Лексис (Lexis)
(1837–1914) также ввели
этот термин независимо
друг от друга в 1877 году.





Как только я обнаружил, что Гауссова кривая была впервые открыта Лапласом, я предложил называть ее
кривой Лапласа — Гаусса и в итоге
начал ссылаться на нее как на
кривую нормального распределения, для того, чтобы избежать
международных вопросов
о приоритете.

57

Однако вскоре
стали очевидны недостатки этого названия,
так как это побуждало
людей считать, что все
остальные кривые были
«ненормальными»...



...что привело
к нежелательному
эффекту, когда все стали
упорядочивать свои данные, искажая их, приводя
в соответствие с кривой
нормального распределения.

Кого вы называете
ненормальным?

Тем не менее Пирсон был
тем человеком, который
популяризовал термин «нормальное распределение»
в среде статистиков по всему миру.

58

Так что же такое
нормальное распределение?
Для статистика это теоретическая конструкция, используемая для выражения того, что могло бы быть истинным в отношении собираемых данных и вероятности появления соответствующих значений с элементом
случайности.
Кривая нормального распределения имеет три математических свойства:
1. Она симметрична и имеет форму колокола, непрерывна и простирается
от отрицательной бесконечности до положительной бесконечности.

Прямоугольное распределение также симметрично, так как имеет одинаковые частости
для всех положительных значений на оси Х.

59

2. Среднее (см. с. 65–67) и среднеквадратическое отклонение (см. с. 99–102)
определяют ее форму. Теоретическая кривая нормального распределения
имеет нулевое математическое ожидание и среднеквадратическое отклонение, равное 1. Различные виды этих отклонений дают слегка различные
формы кривой.
Среднее является распределением по оси Х и показывает, как варьируют
величины и каково рассеивание. На представленных графиках среднее
значение одинаково, однако кривая В имеет большую дисперсию (вариабельность), чем кривая А.

60

3. Асимметрия (скошенность) кривой нормального распределения равна
0, так как она симметрична относительно среднего значения. Если бы
в распределении был перекос в левую сторону, значение асимметричности было бы отрицательным; если бы перекос был в правую сторону,
значение было бы положительным.
Направление хвоста показывает, положительна или отрицательна асимметрия.

ПОЛОЖИТЕЛЬНАЯ

ОТРИЦАТЕЛЬНАЯ

61

АСИММЕТРИЯ

АСИММЕТРИЯ

Кетлесимус
Нормальное распределение оказало сильное влияние на ряд математиков, философов и статистиков XIX века, в особенности на Адольфа Кетле
(Quetelet) и Фрэнсиса Гальтона (Galton). Оба верили, что в действительности
все данные должны подчиняться кривой нормального распределения.

Кетле считал
кривую нормального распределения особенно важной
вследствие своей веры
в детерминизм.

Это означало,
что существует идеальное статистическое
среднее значение и что
кривая нормального распределения считается идеальной кривой, так как она
соблюдает закон
ошибок.





Следовательно,
все изменения вокруг
среднего должны согласовываться с этой
кривой.

Убежденность Кетле в том, что собранные данные могут быть сопоставлены только с кривой нормального распределения, была настолько сильна,
что доктрину назвали «Кетлесимус», основываясь на том, что он преувеличивал распространенность кривой нормального распределения. Несмотря
на то, что Кетле знал, что многие распределения были асимметричны, он
считал, что так происходит из-за «любопытных случайных причин, действующих неравномерно в двух направлениях».

62

Пантограф Гальтона
Вдохновленный Кетле, Гальтон был так одержим идеей повсеместной кривой нормального распределения, что создал механическое устройство —
усложненный пантограф, для того, чтобы растягивать или сжимать любой
график в двух направлениях.

Это означало, что я
мог бы растянуть кривую любой формы так, чтобы она стала
похожей на кривую нормального распределения.

РУЧКА

см
см

см
см

см
см
ЗАКРЕПЛЕНА

ПОТЯНИТЕ
ЗА ЭТУ ТОЧКУ

Эта бескомпромиссная вера в могущество нормальной кривой стала разделительной чертой между старой школой демографической статистики
и новой, возникшей из математической статистики. Господство кривой
нормального распределения было повсеместным, и к концу XIX века
большинство статистиков признавали, что нет другой кривой для описания
данных. Однако такой монолитный взгляд изменил в последней декаде
столетия Пирсон.

63

Как суммировать данные?
Средние значения
Средние значения являются одним из основных инструментов демографической статистики и одним из старейших статистических понятий. Идея
средних значений используется со времен античности. Аристотель писал
о золотой середине, имея в виду «золотой» значит «хороший», находящийся между крайностями.

Слово «средний» является сейчас
синонимом для
таких слов, как:
«обычный»,

Добродетель — это среднее, находящееся
между двумя пороками: пороком излишества и пороком
нужды.

Н У Ж Д А

И З Л И ШЕ С Т В О

 

«нормальный»,
«среднестатистический»,
«промежуточный»
и «рядовой».

Но для статистиков существует три типа средних значений: среднее арифметическое, медиана и мода.

64

Кетле и среднее арифметическое
Такой метод был популяризован Кетле в 1830-х годах, когда было открыто,
что астрономические законы ошибок можно применить к распределению
таких характеристик человека, как рост и обхват талии. Это в свою очередь
вызвало создание концепции l’homme moyen, или среднего человека.
Закономерности, которые Кетле нашел в человеке и в метеорах, были
сопоставимы с законами физики. Он говорил об обществе так же, как
астроном говорил о Вселенной.
МЫ —
ЗВЕЗДНАЯ
ПЫЛЬ, МЫ —
ЗОЛОТЫЕ...

Я
связал
среднего
человека
с центром
гравитации,
называя
свои работы
«социальной физикой».
СРЕДНИЙ ЧЕЛОВЕК

СРЕДНИЙ ЧЕЛОВЕК

Я придумал эту фразу, но затем ввел
в употребление
слово «социология», после того
как Кетле стал
использовать термин «социальная физика».







Французский
философ
Огюст Конт
(Comte) (1798–1857)

65



Кетле также подметил сходство встречающихся закономерностей в природе и в обществе. Он был убежден, что
средние значения могут быть
использованы при поиске
идеального общества, политики и морали. Так как отклонения значений от некоего центра приносили обществу болезни и лишения, срединная
философская и политическая
позиции должны были разрешить конфликты в обществе.

Так как средние
значения по своей природе научны, только когда
они представляют тип, типические значения, то отклонения
от этих средних значений
имеют изъяны и считаются ошибкой.

В 1836 году Кетле давал частные уроки принцам Эрнесту
и Альберту Саксен-Кобург-Готским (последний стал супругом (принц-консортом) английской королевы Виктории).
Я был так
впечатлен Кетле, что
позже сыграл важную
роль в установлении
им отношений
с британскими
учеными.





=

!







66

Среднее

ǽ̃ƩưƬɖƯƩƲɖȒƪ́ɖ

зн
об аче
щ ни
ее я
ко да
ли нн
че ых
ст
во

АР

ИФ
МЕ

С
ТИ РЕД
ЧЕ Н
СК ЕЕ
ОЕ

Среднее арифметическое — это то, что большая часть людей привыкла
считать собственно средним значением. Оно складывается из суммы всех
значений набора данных (Х), которое затем делится на общее число (N)
случаев.

ма

м
су

СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ

67



Медиана — это точка, которая разделяет распределение на нижнюю
и верхнюю половины таким образом, что количество значений в каждой
из половин составляет 50% от общего.





Я впервые воспользовался этим...

Фрэнсис Гальтон искал более быстрый способ определить середину, не
сталкиваясь с трудностями подсчета значения среднего арифметического.
Он ввел слово процентиль, которое обозначает точку, разделяющую распределение на нижние и верхние значения процентов.





Несмотря на то что в 1816 году Гаусс впервые воспользовался медианным
значением, именно Гальтон ввел это понятие в статистику. В 1874 году он
создал статистическую шкалу для того, чтобы найти медианное значение.
Он использовал при этом 50-й процентиль как серединное значение в наборе данных, разделяющее эти данные строго на две равные половины.

...а я впервые
использовал это
в статистике.
ПРОЦЕНТИЛЬ







68






Медианное значение относительно просто в использовании,
и подсчитать его намного легче, чем среднеарифметическое.
Когда Гальтон хотел измерить рост мужчин, он расставил
в ряд 100 мужчин, от самого высокого до самого низкого,
и выбрал того, кто стоял «как можно ближе к середине». Этот
мужчина и представляет собой 50-й процентиль, или медианное значение.

50% ВЫШЕ, ЧЕМ Я...

50% НИЖЕ, ЧЕМ Я...

МЕДИАННОЕ ЗНАЧЕНИЕ

Поиск именно этой
точки занимал намного
меньше времени, чем поиск
среднеарифметического, при котором необходимо было сложить
100 чисел (рост 100 мужчин),
а затем разделить полученную сумму на 100.


69





Как найти и подсчитать
медианное значение?
Медианное значение
легко найти,
когда у вас нечетный набор
значений.

Но что
делать, когда нет
определенной серединной точки для
выбора медианного
значения?

Б
Группа
ам
ч е н и я, в
ных значеское — оно
н
и
д
е
р
е
два с неарифмети
вас есть
ед
е
Когда у дсчитать их ср ением.
н ач е н и
ч
о
а
п
н
т
з
е
у
м
д
нное з
ы
а
н
и
н
с ле
д
а
е
и
д
м
ме
и будет

Группа А




   
  

медианное
значение
 .

 .

 

       .

Гальтон даже изобрел способ создания (фотографирования) портрета
среднего человека, накладывая друг на друга множество различных людей, которые сливались бы в одну картину — одно лицо. Гальтон назвал
это комбинированной фотосъемкой.

70

íïåá

Третий способ измерить среднее значение —
мода — был придуман Карлом Пирсоном
в 1894 году. Мода — это значение, которое
встречается чаще других. Его часто используют
в рекламе, когда нужно осуществить обращение к так называемой средней, или «репрезентативной» семье.
Мода — это точка наибольшей частости (частоты), она используется для того, чтобы рассмотреть типичные случаи. Моду вполне возможно
(хотя и необязательно) сопоставлять с фактическим значением. «Средняя», или «модальная», семья, согласно исследованиям, может составлять
3,79 человека
Иногда
вместо 4-х.
есть больше
одной моды.

Группа

Группа

Первая мода

Мода

Вторая мода

УНИМОДАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

БИМОДАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
(С ДВУМЯ МОДАМИ)

В группе А есть значение, которое встречается 6 раз, и это значение — 3.
Значит, 3 будет модой, однако в группе Б есть две моды: 7 и 3. Такой случай распределения статистической величины называется бимодальным.

71

Насколько важным
является выбор
статистического среднего?
Преимущество использования среднеарифметического состоит в том,
что подсчет достаточно прост и включает весь набор данных в группе.
Однако, если некоторые значения слишком велики или слишком малы,
это исказит значение среднеарифметического.

И тогда среднеарифметическое
окажется нереалистическим показателем.







Среднеарифметическое похоже на заряженное
ружье: в неопытных руках оно может привести к серьезным происшествиям, давая безнадежно искаженные результаты.

В свою очередь, медианное значение не поддается влиянию крайних
значений. Например, если вы захотите определить медианную зарплату
среди такой группы — 40 000 фунтов, 60 000 фунтов, 120 000 фунтов,
160 000 фунтов, 820 000 фунтов, — медианным значением будет число
120 000 фунтов. Подобный метод поиска среднего будет полезным в подобной ситуации определения дохода, так как крайнее значение,
820 000 фунтов, искажает наблюдаемую картину и дает среднеарифметическое значение 240 000 фунтов, которое, как можно видеть, вовсе не
является ничьей зарплатой.

72

Давайте рассмотрим все три способа измерения среднего для подсчета
средней зарплаты в группе из 41 человека в компании.
один человек

Количество людей

Зарплата
фунтов
фунтов
фунтов
фунтов
фунтов

фунтов
фунтов
фунтов
фунтов
фунтов
фунтов
фунтов

Среднеарифметическое
Мода (встречается 8 раз)
Медианное значение

фунтов
фунтов
фунтов

73

Мода: значение,
встречающееся
наиболее часто
Медианное значение: это середина, —
выше находятся
20 человек и ниже
находятся 20 человек

Как статистика может
вводить в заблуждение
В этом примере все три цифровых подсчитанных значения для среднего
отличались друг от друга. Мы сразу же можем заметить, что возможно
намеренно ввести людей в заблуждение, выбирая то среднее, которое
нам по каким-то причинам удобнее.
Например,
я могу заявить,
что мои подчиненные
хорошо зарабатывают,
показав значение среднеарифметического
56 524 фунта.
Тем не
менее лишь двое
зарабатывают
столько
денег.

Пытливый журналист может заявить, что средняя (модальная) зарплата —
10 000 фунтов, и доказать, что половина сотрудников в компании получают меньше среднего дохода по стране в целом.

Медианное значение (24 000 фунтов) здесь, пожалуй, наиболее репрезентативно, хотя результат мог бы быть еще более реалистичным, если бы
зарплата босса (200 000 фунтов) не была включена. Она представляет собой крайнее значение по сравнению с остальными. Статистики называют
такие крайние значения выпадающими, так как они находятся далеко на
краях распределения.
ЧАСТОТНОЕ

РАСПРЕДЕЛЕНИЕ

37

ЧЕЛОВЕК ИЗ НАШЕГО ПРИМЕРА

(ГИСТОГРАММА)

7
6

СРЕДНЕАРИФМЕТИЧЕСКОЕ

МЕДИАНА

ВЫПАДАЮЩЕЕ

ЧИСЛО

ЛЮДЕЙ

МОДА

ЗНАЧЕНИЕ

ИХ

ЗАРПЛАТЫ

74

Медиана абсолютно бессмысленна

Единственным способом рассуждать о средних значениях является учет
всего объема информации, в особенности вариаций около среднеарифметических значений. Зачастую это наиболее реалистичный способ
обнаружить характерную информацию относительно индивида.
Это был полезный урок, который палеонтолог и биолог-эволюционист
Стивен Джей Гулд (Gould) (1941–2002) усвоил вскоре после того, как у него
нашли в 1982 году мезотелиому (редкий и тяжелый тип рака, обычно вызываемый работой с асбестом). Его знание статистики помогло ему понять,
что он не должен уподобляться простому статистику, который верит в медианную смертность от рака в течение 8 месяцев, — согласно тогдашним
прогнозам медиков.

Что значит «медианная
смертность в течение 8 месяцев» на
нашем языке?



Так как медиана показывает точку
50-го процентиля
в распределении, в моем случае
это значит, что половина людей
умрет в течение
8 месяцев, а другая половина
проживет больше, чем
8 месяцев.

75

Смещенное распределение Стивена
Джея Гулда для медианной
смертности от мезотелиомы

медиана

Процент умерших за определенной
временной интервал

Важным практическим инструментом для работы со статистическими данными является частотное распределение (с. 35). Гулд понимал, что этот
график не означает его неминуемую смерть в течение 8 месяцев. Напротив, график можно проинтерпретировать так, что сам Гулд мог с легкостью оказаться справа от медианного значения — среди пациентов, которые прожили больше 8 месяцев.

Половина
умерла
в течение
8 месяцев

Половина
прожила
дольше
Правый хвост распределения
месяцев

Время после постановки диагноза

Гулд рассчитывал на то, что большинство людей, незнакомых со
статистикой, поймут «медианную смертность в течение 8 месяцев» как
«Я умру в ближайшие 8 месяцев».



Заключений
подобного рода следует избегать, в особенности
если настрой пациента
может повлиять на его
выздоровление.

76

Будучи биологом-эволюционистом, Гулд знал, что нужно исследовать изменчивость в качестве основы реальности и стараться избегать средних
значений, которые в конце концов являются лишь абстрактной мерой,
неприменимой к отдельному человеку или неуместной в индивидуальных
случаях.

Изменчивость
внутри целостной системы —
это абсолютная реальность,
в то время как абстрактная природа средних значений имеет
узкое применение.

В свете прозорливости Гулда один из колумнистов «Санди Таймс» проницательно предположил, что «Статистика — это приговоренный лучший друг
человека». Стивен Джей Гулд умер в 2002 году, через два десятилетия после первичного диагноза.

77

Способы управления данными
Викторианцы были одними из первых,
кто использовал статистику для изучения массовых явлений. Колоссальное
количество данных было собрано государственными агентствами, частными организациями и различными личностями,
заинтересованными в таких общественных явлениях, как бедность, болезни
и суицид. Существуют основные способы,
которыми они пользовались для управления данными.
1. Группировка (составление таблиц) —
простая запись данных в длинные
столбцы цифр.
2. Создание круговых и прочих диаграмм.
3. Сужение набора данных для создания
выборок меньшего размера. Например, когда Гальтон работал с крупными
выборками, он часто сужал выборку до
100 человек, для наглядной демонстрации процентных отношений.

Но так как диаграммы и таблицы не имели стандартов построения, обобщения или сравнения с другими наборами данных были невозможны.
Хотя викторианцы и использовали средние значения для формирования
выводов из анализа своих данных, все-таки их статистический инструментарий не мог передать всю сложность этих данных, присущую моделям,
которые имели дело уже со статистической изменчивостью (variation).

78

Унифицированные
частотные распределения
Пирсон обнаружил, что имеются и другие способы организации и упорядочения громоздких данных. Он разработал систематический способ для
работы с очень большими наборами данных, создав унифицированное
частотное распределение. Оно позволило сравнивать и обобщать те
данные, с которыми раньше было невозможно работать.
Основные способы управления данными,
которые ввел Пирсон, а также статистические методы, придуманные
им, стали основой элементарной
математической статистики.

Об этих
способах речь пойдет на следующих
страницах.

79

Выборки или генеральные
совокупности?
В 1892 году близкий друг Пирсона, последователь Дарвина и зоолог
В. Ф. Р. Велдон (Weldon) (1860–1906) ввел в обращение термин «выборка»
для обозначения групп наблюдений за морскими организмами, хотя и
полагал, что размер его выборок достаточно большой. Пирсон использовал термин «генеральная совокупность» четырьмя годами позже, заменив
термин «нормальная группа» и поставив генеральную
совокупность в один ряд с выборкой в 1903 году.















Я стоял
на стороне использования очень
больших выборок, для
того, чтобы результат
в отношении генеральной
совокупности был как
можно более репрезентативным.

Генеральная совокупность — это технический термин, обозначающий целую группу организмов или объектов, таких как розы или тигры, на которые
распространяются результаты. Генеральная совокупность представляет все
возможные варианты наблюдений определенного типа, в то время как выборка — это ограниченное число наблюдений из генеральной совокупности.
Наилучшим примером использования целой генеральной совокупности является перепись (например, населения), проводящаяся каждые десять лет.

80



 

  
В большинстве исследований генеральная совокупность, в которой заинтересован аналитик, слишком велика для измерения всех ее элементов (все студенты Англии, все голосующие
в Великобритании, все машины «Форд» и т. д.). Ученые-статистики обычно ограничивают свой анализ генеральной совокупности какой-либо небольшой группой наблюдений внутри
генеральной совокупности, которая называется выборкой.
Статистики используют несколько методик выборочного
исследования: случайную, систематическую, побочную,
целевую и расслоенную (stratified).

81

Случайная выборка
Этот тип аналогичен вытягиванию нескольких ярлыков с именами
людей из шляпы, в которую эти ярлыки (в очень большом количестве) были прежде положены. Каждый элемент в такой генеральной
совокупности независим от других и обладает одинаковой с ними
вероятностью попасть в выборку. И хотя этот тип выборки наиболее
приемлемый, для него необходимо иметь полный список всех элементов генеральной совокупности, который не всегда можно составить.
Таблица случайных чисел в статистических сборниках или аналоги,
создаваемые компьютерами и некоторыми телефонными системами,
используются при рассмотренном типе.
Систематическая выборка
Для этого типа также требуется полный список элементов генеральной
совокупности, однако здесь он разделен на блоки, в каждом из которых
выбирается каждый n-й элемент из списка (например, выбирается каждый 10-й элемент из отсортированного по алфавиту списка).

Побочная выборка
Этот тип является наиболее доступным, так как здесь выборка составляется из наиболее удобного и подходящего набора элементов.
Однако такой тип выборки является самым недостоверным из всех.

Целевая выборка
В этом типе исследователь сам выбирает элементы для своей выборки, потому что он или она считает их наиболее репрезентативными.

Расслоенная выборка
Используя расслоенную выборку, исследователь выбирает определенную характеристику, которую он или она считает важной для исследования, а затем разделяет выборку на непересекающиеся группы или
слои, страты (например, возрастные, гендерные, географические или
политические). Этот тип можно использовать в сочетании с одной
из предыдущих четырех выборок.

82

Гистограмма
Пирсон ввел в употребление гистограмму 18 ноября 1891 года. Он придумал этот термин для обозначения «временной диаграммы» на своей лекции о «Картах и картограммах».
Гистограмма
может быть использована для исторических целей
при создании временны́х
временных блоков
правления монархов или периодов правления разных премьер-министров.

Число лет

ГИСТОГРАММА

Периоды правления монархов

Гистограмма — это
графическая версия
набора непрерывных данных (таких
как время, сантиметры или температура), которая
показывает число
случаев, попавших
в соответствующие
разделенные прямоугольные непересекающиеся (но
смежные) столбцы.

Количество
мест

ВЫБОРЫ В ЕВРОПЕЙСКИЙ ПАРЛАМЕНТ 2004 ГОДА

График, который внешне похож на гистограмму, называется столбчатым
графиком. В нем есть зазоры между столбцами, и его построения используются дискретные данные (такие как пол, политическая принадлежность).
К графикам часто прибегают, чтобы помочь людям взглянуть на проблему
визуальными средствами.

83

Другой способ представить набор непрерывных данных заключается в использовании полигона частот. Полигон частот — это линейный график, который состоит из срединных точек каждого столбца (взятого из гистограммы) и соединенных прямой линией.
Процесс нанесения данных на картинку полигона частот — это наиболее
простой тип вычерчивания эмпирической кривой по точкам, который заключается в соединении двух точек прямой линией (или более сложной
кривой) для создания различных форм статистической зависимости.

ЧАСТОТА

ПОЛИГОН ЧАСТОТ

ОТМЕТКИ

Следующим шагом для Пирсона была демонстрация студентам того, как
можно скомпоновать частотные распределения на случай больших объемов непрерывных данных и как сконструировать такие распределения.

84

Частотные распределения
Частотные распределения переводят очень большие группы чисел в более удобную для работы форму и показывают, насколько часто в соответствующей группе встречается
тот или иной элемент. Гистограмма и полигон частот являются частотными распределениями.

Когда Велдон искал эмпирическое доказательство естественного отбора, ему была нужна
статистическая система, которая
работала бы систематически
с выборкой из 1000 элементов.

АБА,

РИСУНОК КР

НЫЙ
СДЕЛАН
Д
ВЕЛ ОНОМ

Большая
выборка необходима для эмпирического
подтверждения естественного отбора.

Но так как
методы Гальтона
были основаны на выборках, включавших не
больше 100 элементов,
я обратился за советом к Пирсону.

Для того чтобы помочь Велдону, Пирсон создал формализованную систему частотных распределений, которая позволяла бы работать с большими
выборками и при этом не опиралась бы на нормальное распределение.

85

Метод моментов
Как определить и описать форму эмпирического распределения?
Пирсон начал разрабатывать свою статистическую систему в 1892 году,
основываясь на методе моментов. Термин «момент» пришел из механики: он измеряет силу, приложенную к точке вращения, например к точке
опоры рычага. В статистике моменты — это средние значения. Вычислительные процедуры в отношении моментов аналогичны поиску среднеарифметического. Пирсон заменил механическую силу функцией кривой
распределения частот (такой, которая показывала бы процентное распределение внутри заданного интервала группировки).
Первый
момент измеряет среднеарифметическое.





Второй момент измеряет среднее отклонение, возведенное во вторую степень
(среднеквадратическое
отклонение).

В 1918 году
я назвал это
«дисперсией»
(случайной величины) .

. . >



Четвертый момент измеряет среднее отклонение, возведенное в четвертую степень
(или коэффициент
эксцесса).

86

Третий момент
измеряет среднее отклонение, возведенное
в третью степень
(или асимметрию).

Будучи заядлым любителем графических представлений, Пирсон объяснял метод моментов своим студентам, используя примеры из механики.
Для вычисления среднеарифметического он нашел точку, в которой рычаг
балансирует на точке опоры. Среднеарифметическое является «точкой
баланса» этого рычага и аналогично центру гравитации (или масс) в механике.
СОПРОТИВЛЕНИЕ

УСИЛИЕ

РЫЧАГ

ТОЧКА ОПОРЫ

Если приложить силу к такому рычагу, первый момент будет называться
«моментом силы». Вычисления производятся для того, чтобы определить
первый момент и найти среднеарифметическое. Пирсон продолжал использовать эту процедуру и со следующими тремя моментами. Используя
одни и те же данные при поиске среднеарифметического, он возводил
в квадрат полученные значения для того, чтобы найти квадрат среднеквадратического отклонения (см. с. 99–102).

Я назвал полученное значение
«квадратом среднеквадратического отклонения».

87

Для того чтобы измерить асимметрию распределения, Пирсон возводил
в третью степень эти средние значения и вычислял третий момент. Когда
распределение асимметрично, среднее располагается ближе к хвосту распределения.
ОТРИЦАТЕЛЬНАЯ АСИММЕТРИЯ

ПОЛОЖИТЕЛЬНАЯ АСИММЕТРИЯ

МОДА

МОДА

ЧАСТОТА

МЕДИАНА

МЕДИАНА

СРЕДНЕАРИФМЕТИЧЕСКОЕ

СРЕДНЕАРИФМЕТИЧЕСКОЕ

ОТРИЦАТЕЛЬНОЕ НАПРАВЛЕНИЕ

ПОЛОЖИТЕЛЬНОЕ НАПРАВЛЕНИЕ

Значение асимметрии:
Если значение равно 0, значит, распределение симметрично.
Если значение отрицательно, значит, присутствует отрицательная асимметрия.
Если значение положительно, значит, присутствует положительная асимметрия.

Первый коэффициент асимметрии Пирсона позволил ему вычислить
асимметрию, подсчитывая разницу между среднеарифметическим и модой, разделенную на среднеквадратическое отклонение.
Асимметрия =

(среднеарифметическое – мода)
среднеквадратическое отклонение

88

Для вычисления четвертого момента Пирсон возводил средние значения в четвертую степень. Это показывало, насколько плоским или островершинным было распределение. Пирсон придумал слово kurtosis [рус.
«коэффициент эксцесса»] для обозначения этого момента (от греческого
слова, обозначающего «вздутость»). Соответственно, есть три варианта
значений этого показателя.
Если данные группируются или достигают пика вокруг
среднеарифметического, я называю такое
распределение островершинным, «с положительным эксцессом».

Если данные разбросаны по всему распределению, кривая
распределения будет «с отрицательным
эксцессом» и будет иметь форму
утконоса.
Если данные дают
кривую нормального распределения, то кривая распределения
будет «с нормальным эксцессом»,
т. е. будет «мезокуртической».
Для коэффициента эксцесса:
• Отрицательное значение =
менее островершинное
(с отрицательным эксцессом)
• Положительное значение =
более островершинное
(с положительным эксцессом)
• Нулевое значение = симметричная кривая (с нулевым
или нормальным эксцессом)

89

Один из студентов Пирсона Уильям Сили Госсет (Gosset) (1876–1937), который известен под псевдонимом «Стьюдент», использовал иллюстрацию
утконоса для изображения кривой с отрицательным эксцессом и двух кенгуру с длинными хвостами для кривой с положительным эксцессом.

ПОЛОЖИТЕЛЬНЫЙ ЭКСЦЕСС

ЧАСТОТА

НОРМАЛЬНЫЙ (НУЛЕВОЙ) ЭКСЦЕСС

ОТРИЦАТЕЛЬНЫЙ ЭКСЦЕСС

ИЗМЕРЯЕМЫЕ ПАРАМЕТРЫ

ИЛЛЮСТРАЦИЯ СТЬЮДЕНТА
ИЗ ЕГО РАБОТЫ «ОШИБКИ
ПОВСЕДНЕВНОГО
СТАНДАРТНОГО АНАЛИЗА»
1927 ГОД.
ОТРИЦАТЕЛЬНЫЙ ЭКСЦЕСС

ПОЛОЖИТЕЛЬНЫЙ ЭКСЦЕСС

Используя метод моментов, Пирсон установил четыре параметра для
статистической обработки и построения кривых. Эти параметры показывали, соответственно, как 1) сгрупированы данные (среднеарифметическое),
2) каков у них разброс (среднеквадратическое отклонение), наблюдается
ли3) потеря симметрии (асимметрия) и 4) какова форма распределения — островершинная или плоская (коэффициент эксцесса). Эти четыре
параметра описывали основные характеристики любого распределения:
система была экономной и элегантной. Эти статистические инструменты
необходимы для интерпретации любого набора статистических данных,
какова бы ни была форма их распределения.

90

Естественный отбор: изменяющиеся формы
Дарвиновских распределений
Дарвин понимал, что форма частотного распределения до появления
естественного отбора была бы «симметричной относительно среднеарифметического» (т. е. данные имели бы нормальное распределение) и что
после начала работы механизма естественного отбора распределение утратит свою симметричную, колоколообразную форму. (Однако затем, по мере размножения и воспроизводства потомства
особей, кривая нормального распределения восстановится,
но уже с другим значением среднеарифметического.)

Естественный отбор,
являющийся механизмом эволюции, вызван изменчивостью
в Дарвиновском
смысле приспособления (т. е. адаптацией
популяции к окружающей среде). Он генетически определен
и измеряется уровнями дифференциальной фертильности
(плодовитости) и/или
смертности.
Следовательно,
только те организмы, которые лучше всего приспособлены
к окружающей среде, могут выжить
и передать свои генетические характеристики следующим поколениям, в то
время как менее приспособленные
имеют тенденцию к вымиранию.

91

Если форма распределения островершинная или сплюснутая (эксцессивная, по терминологии Пирсона), то можно предпологать стабилизирующий
отбор, который означает поиск поддержания баланса, или состояния
статус-кво.

ВРЕМЯ

СТАБИЛИЗИРУЮЩИЙ
(ОТБОР)

ЭКСЦЕССИВНАЯ
(ФОРМА РАСПРЕДЕЛЕНИЯ)

Распределение сверху — это нормальное распределение до естественного отбора. Черные области обозначают места давления отбора за
определенное время, до тех пор пока форма распределения не изменится на ту, которая представлена внизу.
Давление отбора (или селективное давление) — это любое из ряда вон выходящее явление, которое заставляет менять поведение и приспособленность живых организмов внутри рассматриваемой окружающей среды. Оно
представляет собой движущую силу эволюции и естественного отбора.

Масса тела детей при рождении находится под определенным влиянием
стабилизирующего отбора. Детская смертность меньше всего при средней
массе тела и максимально высока при слишком низкой или слишком высокой массе новорожденного тела.

92

Бимодальное распределение обозначает разрывающий отбор (или разрушительную селекцию), при котором уничтожается середина распределения
и остаются только его края. Разрывающий отбор был обнаружен у чернобрюхих астрильдов (Pyrenestes ostrinus), которые обитают в Западной
Африке. Птенцы с маленькими клювами ели мягкие, небольшие семена,
а птенцы с крупными клювами ели большие, твердые семена.

РАЗРЫВАЮЩИЙ
(ОТБОР)

НАПРАВЛЕННЫЙ
(ИЛИ ЛИНЕЙНЫЙ)
(ОТБОР)

БИМОДАЛЬНОЕ
(РАСПРЕДЕЛЕНИЕ)
МНЕ
КАЖЕТСЯ, ВЫ
НАХОДИТЕ ЭТО
СМЕШНЫМ?

АСИММЕТРИЧНОЕ
(РАСПРЕДЕЛЕНИЕ)

Если распределение в одном из направлений становится асимметричным,
это свидетельствует о направленном отборе, который происходит, когда
популяция находит обстоятельства на одном конце распределения более
привлекательными, чем на другом.

93

Пяденица березовая
Один из наиболее известных примеров направленного отбора
встречается у березовых пядениц (Biston betularia), которые обитали
в огромном количестве в предындустриальной викторианской Англии. Хотя
угольно-черный мутант был обнаружен в 1849 году, они все равно редко
встречались уже в то время.
В высокоиндустриальных викторианских городах, таких как
Манчестер и Лидс, загрязнение
воздуха было очень серьезным,
и токсичные газы вместе
с сажей сделали деревья черными.

Черная пяденица была практически невидимой
на почерневших стволах
деревьев и имела более
высокие шансы на выживание, чем березовая
пяденица, которую
легко видели
птицы.

(СМ. С. 127)

В течение века популяция угольно-черных пядениц возросла на 90% на
индустриальном Севере. В то время как исконные березовые пяденицы,
имеющие до индустриализации нормальное распределение, сразу после
загрязнения среды их обитания изменили свое распределение: кривая
нормального распределения сместилась в правую часть и стала асимметричной.

94

Пирсоновское семейство кривых
Используя метод моментов, Пирсон также создал целый ряд теоретических
кривых с различной градуировкой, которые затем могли быть наложены
на эмпирическую кривую для определения того, какая кривая подходит
наилучшим образом. Эти
ГАММАкривые относятся к «ПирКРИВАЯ
соновскому семейству кривых».

,

T-РАСПРЕДЕЛЕНИЕ
,

,

Наиболее важные кривые, которые остаются основой
теоретической статистики,
включают в себя:

,

,

III тип: гамма-кривая, которую он использовал в попытке найти точное распределение хи-квадрат (мы рассмотрим это
распределение позднее). IV тип: семейство
асимметрических кривых (созданных для
данных Велдона). V тип: кривая нормального
распределения. VII тип: ныне известная как
распределение Стьюдента для получения
t-статистик в тестах на проверку гипотез (тема
будет затронута позднее).

Открытие Пирсоном этого семейства кривых
сделало многое для того, чтобы развенчать почти религиозное убеждение
в том, что нормальное распределение является математической моделью изменчивости биологических, физических
и социальных явлений.

95

Черчилль Эйзенхарт (Eisenhart)
(1913–1994)

Как

интерпретировать

данные?
Статистика начала исследовать основные закономерности и типы изменчивости и любые ярко выраженные
отклонения от этих закономерностей.
Статистические
измерения изменчивости (вариации)
Измерение изменчивости (или вариации) — это ключевой элемент математической статистики и вместе с тем
поворотный момент в ее развитии.
Гальтон придумал первый способ измерения в 1875 году,
когда ввел понятие «полуинтерквартильный размах» (полурасстояние между квартилями). Он выражался так:

3

1

,

где Q, квартиль — это точка на кривой распределения.






1

2


3

4

Первый квартиль Второй квартиль Третий квартиль Четвертый квартиль

Полуинтерквартильный размах
Подобно Гальтоновой медиане, этот метод был легким
и быстрым в использовании. На полуинтерквартильный
размах не влияли выпадающие значения.
1

2

3

Здесь полуинтерквартильный





96

выпадающее
значение

,

Интерквартильный размах
Это более широко используемый метод, который измеряет
разброс 50% середины (или медиану) организованного набора данных. В следующем примере:

1

2

3

интерквартильный размах = Q3–Q1 или 8–4=4. Следовательно, медиана (Q2) равняется 6, и разброс происходит в радиусе 4. Эта техника оставалась легким и быстрым способом
ручного подсчета приблизительной оценки значений изменчивости вплоть до появления статистического программного
обеспечения для ПК в конце 1970-х годов.
Подобно полуинтерквартильному размаху, на интерквартильный размах не оказывают влияние выпадающие значения.

1

2

3

выпадающее
значение

Интерквартильный размах = Q3 – Q1 или 17–6=11. Вокруг медианы, которая равняется 12, происходит разброс в радиусе 11.

97

РАЗМАХ
В данном примере —
4, 7, 12, 25, 34 — размах
будет равен 34-4=30

В 1892 году в своих первых лекциях по статистике в Грешем-колледже Пирсон ввел понятие
размаха, которое является простейшим способом измерить изменчивость. Размах измеряет
расстояние между наибольшим и наименьшим
значениями из определенного набора данных
наблюдений и дает представление о разбросе
данных.
Размах часто
используется при изложении данных для обычных
граждан, например размах
зарплат, возрастов
и температур.

Преимущество размаха состоит в его
простоте, однако это наименее
надежный способ измеВ данном примере речь идет о темрить изменчивость, так
пературах по Цельсию одной
как он не использунедели ноября:
ет всех имеющихся
2, 6, 8, 12, 10, 12, 26.
данных и подвержен
Размах равен 26-2=24
градусам.
влиянию выпадающих
значений.
Результат — 24 градуса — это необъективная и ненадежная численная оценка всего диапазона температур
недели ноября. Нетипично высокая для такого сезона
температура в 26 градусов является аномалией (или,
возможно, одним из фактов глобального потепления).

98

Среднеквадратическое отклонение
Пирсон ввел понятие среднеквадратического отклонения в своей лекции в Грешем-колледже 31 января 1893 года, обозначая его сперва как
«среднеквадратическое расхождение» (Standard divergence). Джон Венн использовал термин «расхождение» за несколько лет до этого, когда говорил
об отклонении. Среднеквадратическое отклонение есть мера изменчивости. Оно показывает, как, широко или узко, разбросаны значения в наборе
данных, а также показывает, как сильно отдельные значения отличаются от
среднего (т. е. среднеарифметического).

Используя метод
моментов, я продемонстрировал своим студентам,
как вычислить среднеквадратическое отклонение
и ковариацию.

Среднеквадратическое отклонение
(сигма малая, ࢼ)) соответствует «моменту инерции»*,
а ковариация (сигма заглавная xy) соответствует
«произведению моментов динамики»**.

СРЕДНЕКВАДРАТИЧЕСКИЕ ОТКЛОНЕНИЯ СРЕДНЕАРИФМЕТИЧЕСКОЕ СРЕДНЕКВАДРАТИЧЕСКИЕ ОТКЛОНЕНИЯ

Ковариация измеряет, как сильно две случайные величины соотносятся
друг с другом. Если две величины движутся в одном направлении, то ковариация считается положительной. Если две величины движутся в разных
направлениях, ковариация считается отрицательной. Если у двух величин
относительно друг друга нет определенного направления, тогда ковариация
равняется нулю.
* Мо м е н т и н е рц и и — это важный элемент механики. Это геометрическое
свойство стержня, и он измеряет способность стержня сопротивляться сгибанию
и деформации. — Прим. науч. ред.
** Мо м е н т д и н а м и к и связан с действием силы, направленной на движение
объектов. — Прим. науч. ред.

99

Используя среднеквадратическое отклонение, Пирсон добился того, что
смог измерить все точки изменчивости на кривой распределения — вместо
двух или трех точек, которые сумел измерить Гальтон с помощью квартильного размаха.
Среднеквадратическое отклонение показывает отклонение от среднеарифметического значения
и частоту появления такого отклонения.

Среднеквадратическое
отклонение

Этот способ,
вне всяких сомнений,
остается одним из наиболее используемых статистических инструментов
для измерения изменчивости.

(сумма исходных значений из набора данных –
среднеарифметическое из этих данных наблюдений)2
число наблюдений

или:

Таким образом, среднеквадратическое отклонение
равняется квадратному корню из средних отклонений,
возведенных в квадрат.

100

Вместо
того чтобы просто суммировать
значения для поиска
среднеарифметического, мы проделываем
следующие действия.

Формула:

1) Вычитаем среднеарифметическое из исходных данных (Х), что дает нам значения
«отклонения» (обозначается строчной х).
2) Чтобы исключить отрицательные значения,
возводим в квадрат полученные значения.
3) Суммируем значения отклонения, возведенные в квадрат, и делим на число наблюдений, чтобы вычислить среднеквадратическое отклонение.

Исходные
данные

Средне– арифмети- =
ческое

Значение
отклонения

Значение отклонения
в квадрате

Формула отклонения:
,
Это значит, что средняя величина отклонения в указанном наборе данных
на 2,82 единицы отстоит (находится в радиусе) от среднеарифметического
значения 8 и что, следовательно, изменчивость в нашей выборке не так
велика.

101

Среднеквадратическое отклонение выражается в тех
же единицах измерения,
что и исходные
данные.

Это значит, что если
что-то измерено
в метрах или сантиметрах...

...то среднеквадратическое
отклонение будет выражено в метрах или сантиметрах соответственно.

Большое среднеквадратическое отклонение (относительно значения среднеарифметического) показывает, что частотное распределение имеет большой
разброс по значениям относительно среднеарифметического, в то время как
малое среднеквадратическое отклонение показывает, что большая часть значений сгруппирована рядом со среднеарифметическим, с небольшими отличиями
в наблюдениях друг от друга. Несмотря на то, что среднеквадратическое отклонение показывает, насколько величины отличаются от среднеарифметического,
по нему нельзя сказать о том, насколько величины целой группы значений отличаются друг от друга в более частной группе значений.

МАЛОЕ СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ

БОЛЬШОЕ СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ

СРЕДНЕАРИФМЕТИЧЕСКОЕ

СРЕДНЕАРИФМЕТИЧЕСКОЕ

Если среднеквадратическое отклонение является практическим инструментом измерения изменчивости, то дисперсия используется в теоретических
работах, в особенности в дисперсионном анализе (см. с. 168–170).

102

ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Дисперсия также измеряет изменчивость, однако она используется
для случайных величин и обозначает степень разброса значений
относительно ожидаемых (а не
фактических) значений*.
Используя пример, рассмотренный для среднеквадратического отклонения:
Дисперсия случайной величины =
(сумма исходных значений из набора данных – среднеарифметическое из наблюдений)2
число наблюдений

или
.

Формула отклонения для дисперсии случайной величины:

* О ж и да е м ы е з н ач е н и я (expected values), или в узком
смысле м а те м а т ич е ско е ож и да н и е — это среднее значение случайной величины, которое появляется (ожидается)
в процессе испытаний, повторенном много раз, и при наличии идентичных шансов осуществления соответствующих
исходов (реализации случайной величины).

ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
103

Так как среднеквадратическое отклонение не отражает диапазона изменчивости (range of variation) внутри этой группы, то как Пирсон смог определить,
насколько изменяются значения внутри группы, и как он смог провести сравнения с другими группами, в которых получаются иные значения среднеарифметического?
Для этого требуется другой статистический метод.
Эта была та
трудность, с которой
я столкнулся в 1886
году, когда измерял
рост мужчин и женщин.





НЕВИДИМАЯ,
«УВЕЛИЧИВАЮЩАЯ РОСТ»
ПРОКЛАДКА

Мне хотелось
узнать, кто, мужчины
или женщины (т. е. какой пол), больше отличаются друг от друга
по росту.

Гальтон справился с этой трудностью, соединив среднее телосложение женщин
с эквивалентным ему средним телосложением мужчин, а затем сравнив
выравненные (сопоставимые) отклонения у мужчин и у женщин. Выравнять или
«преобразовать» средний рост женщин в средний рост мужчин ему удалось,
умножив женский рост на константу, равную 1,08.

104

Вариационный коэффициент
Пирсон думал, что наилучшим способом сравнивать отклонения в росте женщин и мужчин был следующий: нужно варьировать отклонения в одинаковой
пропорции. Использование одного только метода среднеквадратического отклонения, который позволял измерять сантиметры или дюймы, скорее всего
показало бы, что мужчины в среднем выше, так как имеют большее среднеарифметическое значение роста. Однако метод не отвечает на такой вопрос:



В какой из групп,
у мужчин или у женщин, наблюдается бóльшая изменчивость?




Пирсон придумал вариационный коэффициент для ответа на заданный вопрос. Это было важно для Пирсона еще и потому, что он пытался определить,
насколько изменчивым было поведение креветок и крабов, с которыми работал Велдон.

Я хотел узнать,
до какой степени изменчивость
внутри одной группы фиксирует
различие между двумя различными видами...

...или она
просто отражает
диапазон изменчивости внутри определенной группы.


КРИВАЯ ВЕЛДОНА
С ДВУМЯ МАКСИМУМАМИ

РАЗБИЕНИЕ ДВУХ КРИВЫХ НОРМАЛЬНОГО
РАСПРЕДЕЛЕНИЯ, ПРОИЗВЕДЕННОЕ ВЕЛДОНОМ

105

Пирсон пришел к своему новому
методу, выражая среднеквадратическое отклонение как процент от среднеарифметического значения. Вариационный
коэффициент — это относительная мера изменчивости, в то время как среднеквадратическое
отклонение — это абсолютная мера изменчивости.
Как подчеркивал Пирсон, следует помнить, что относительный размер влияет не только на среднеарифметическое, но также и на отклонение
от среднеарифметического.

ВАРИАЦИОННЫЙ КОЭФФИЦИЕНТ
СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ
СРЕДНЕАРИФМЕТИЧЕСКОЕ

Благодаря
моему новому методу группы, в которых
наблюдаются бóльший
масштаб изменчивости, могли теперь быть измерены
внутри каждой из искомых групп по отдельности.




106





Сравнивая изменчивость величин
Вариационный коэффициент не имеет единиц измерения, поэтому его можно
использовать при сравнении изменчивости разных величин с разными единицами измерения. Следовательно, сравнения могут быть проведены для градусов Цельсия в Лондоне и Фаренгейта в Нью-Йорке за одну неделю, для того
чтобы определить, где изменчивость температур больше.

Однако
только использование вариационного коэффициента
показало бы, где
изменчивость больше на самом
деле.

Используя обычное среднеквадратическое отклонение, можно
увидеть, что в данных по
Фаренгейту изменчивость больше,
так как используемые числа
больше.

Лондон
Градусы Цельсия

Нью-Йорк
Градусы Фаренгейта
Понедельник
Вторник
Среда
Четверг
Пятница
Суббота
Воскресенье

107

Практическое применение
Этот метод продолжает широко использоваться в производстве, маркетинге и экономической науке. Производители шерсти применяют вариационный коэффициент для вычисления изменчивости в распределении диаметра волокна и неоднородности пряжи.
Полученные
значения измеряют
стандарты однородности
диаметра волокна (неудовлетворительные, удовлетворительные или высокого
качества)...

...которые являются наиболее важным
фактором при описании
критических уровней приемлемости качества и физических
характеристик изготовленной ткани.

Например, эта информация позволяет производителям создавать различную
по качеству шерсть, в зависимости от требований рынка.

108

Шкалы измерения Пирсона
Различение шкал измерения было очень важно в развитии как методов
корреляции Пирсона, так и других статистических тестов. Когда Гальтон,
Велдон и Пирсон первыми начали анализировать статистические данные,
практически все они были непрерывными. К 1899 году Пирсон начал работу
над статистическими коэффициентами для измерения соотношений между
«прерывными», или дискретными, величинами.
Непрерывные
величины, такие как длина, высота, ширина, время,
температура и артериальное
давление, могут быть
измерены...

...с помощью
таких инструментов,
как рулетка, сантиметр,
линейка, часы, термометр
и манометр соответственно.

Эти величины выражены в таких единицах измерения, которые могут быть
представлены в конечных единицах, таких как дюймы, сантиметры, секунды, минуты и градусы.

109

Номинальные
и порядковые величины
Пирсон впервые столкнулся с величинами, с которыми нельзя было работать как с непрерывными, когда он начал изучать наследование цвета глаз
у людей и окрас шерсти у лошадей и собак. В этих исследованиях единственная доступная форма классификации величины — эта та, которая
включала «подсчет», а не «измерение»: цвет глаз не может быть измерен
тем же способом, что и телосложение, вес или время.
Пирсон назвал такие величины, как цвет глаз, номинальными.

Вы просто называете «имена» величин
(т. е. карие, голубые,
зеленые).

Те, которые
отсортированы по порядку
(например, от темных к светлым
цветам), я называю порядковыми величинами.

Номинальные величины включают почти все демографические величины,
такие как вероисповедание, политические убеждения и социально-экономический статус.

110

Порядковые величины вначале сортируются, а затем именуются. Шкала
Мооса (Mohs) [минералогическая шкала твердости], придуманная немецким
минерологом Фридрихом Моосом в 1822 [на самом деле в 1811] году, является примером порядковой шкалы.

о
Тверд
1
2
3
4
5
6
7
8
9
10

Она состоит из
десяти минералов, от самого
твердого (алмаз) до самого мягкого (тальк), и измеряет твердость
минералов или устойчивость
к царапанию.

с ть

ос
т в е рд
ют н а я
Абсол
1
ал
М инер
3
к
Таль
9
Гипс
шпат
21
й
ы
в
о
к
Из в е с т
48
т
и
Флюор
72
т
и
т
а
Ап
100
з
а
л
к
Орто
200
ц
К ва р
40 0
Топаз
1500
Корунд
А л м аз

ть

Она не
говорит об одинаковой разнице в твердости, так как алмаз не
тверже талька в 100
раз, он просто самый
твердый из всех
минералов.

Для того чтобы
статистические результаты были действительными и имели
значение, необходимо
использовать правильные статистические методы
в зависимости от типа изучаемых данных.

111

Соотношение и интервал
Американский психолог Стенли Смит Стивенс (Stevens) (1906–1973) произвел более глубокое подразделение внутри «непрерывных величин»
в 1947 году, когда ввел понятие интервальной шкалы и шкалы отношений
(ratio scales) (большая часть непрерывных величин Пирсона относилась к
шкале отношений). Стивенс предложил следующее.
1. Шкала отношений
Она отличается от интервальной шкалы (см. следующую страницу) в двух
пунктах: а) абсолютный нуль обозначает отсутствие свойства измеряемой
величины (т. е. высоты, веса и артериального давления) и б) шкала отношений аддитивна.

Следовательно,
можно сказать, что ктото «дважды выше» или
«трижды длиннее».



.

.


Так как
метрические и
стандартные инструменты измеряют абсолютные величины, разница
между тремя футами и шестью аналогична метрической разнице между
0,91 метра и 1,82
метра.

.

Оба в два
раза длиннее.

112

2. Интервальная шкала
Нулевая точка произвольна и не отражает отсутствие
определяемого объекта (например, 0 градусов
Цельсия и 0 градусов Фаренгейта).

Следовательно,
нельзя сказать, что стало
«в два раза теплее», когда
температура поднялась с 10
градусов до 20.
Так как температура —
это относительная мера,
и различные шкалы выбираются
произвольно, то их нельзя
сравнивать.

Переход от Цельсия
к Фаренгейту покажет в нашем случае увеличение температуры с 50 градусов
по Фаренгейту до 68 градусов.
Немного теплее, но все-таки
не в два раза.

113

ц
я
л

ия

Ко

Корреляция
является одним
из наиболее широко
используемых статистических методов, обозначающих
степень, до которой две величины
идут вместе (например, высота и вес).
Наиболее частый тип корреляции измеряет линейные отношения между двумя величинами и обозначает, как близко они идут друг с другом относительно
прямой линии.

о
К

е
р
р

Однако не каждую пару характеристик или величин можно соотнести, используя статистическую корреляцию. Различные способы корреляции используются в биологических, медицинских, поведенческих, социальных и естественных науках, так же как и в производстве, торговле, экономической науке
и образовании.
Различные типы корреляции используются для различных типов величин,
в зависимости от шкалы измерения.
Величины могут быть
номинальными, порядковыми, интервальными или относительными (ratio).

А данные можно отсортировать по рангу и применять к ним такие категории,
как бинарность (0, 1) или дихотомию (два взаимно исключающих значения),
которые потребуют использования весьма определенных методов корреляции.

Пирсон изобрел методы для всех типов переменных.

114

Раннее использование корреляции
Термин «корреляция» был уже в ходу целый век, прежде чем был найден
способ измерить ее. Первым, кто использовал этот термин, был биолог граф
де Бюффон (Вuffon) (1707–1788), а затем понятие о корреляции было развито
палеонтологом Жоржем Леопольдом Кювье (Cuvier) (1769–1832), который
писал о «корреляции частей» в 1801 году.

Организмы существуют как скоординированное целое, следовательно, корреляция частей может быть использована для восстановления облика
животного по одной его части,
например по зубу, когтю
или бедру.


!:

:




115



Чарлз Дарвин считал идею Кювье о корреляции частей важной и полезной
и говорил о функциональных корреляциях, когда, например, размер одного
органа является функцией другого органа. Дарвин также говорил о корреляции развития, которая появляется на ранних стадиях роста и влияет на развитие организма.
Сегодня биологи-эволюционисты
используют экологические
корреляции,, такие как взаимокорреляции
связь между копытами
и зубами
у лошадей.

Редукция пальцев у лошадей с пяти до
одного позволяет им бегать
быстрее, в то время как зубы у
них становятся длиннее из-за
изменения привычек питания —
от ощипывания
к обгрызанию.

116

ДЖЕФФРИ
АИНСВОРТ
ХАРРИСОН
(HARRISON)

Причинность
и ложная корреляция
Фрэнсис Гальтон был первым человеком, который придумал способ измерения корреляции. Он создал график для поиска взаимосвязи между мамой
и дочкой душистого горошка.
До того как Гальтон придумал идею корреляции, причинность была основным способом, которым объяснялись два связанных между собой события,
в особенности в естественных науках.
Я открыл, что
даже если две вещи возникают вместе, это
не означает, что одна
является причиной
другой.

Вместо этого возможна взаимосвязь между двумя величинами.

До встречи с Гальтоном Пирсон был убежден, что формально математика
может быть применима только к явлениям природы; эти последние определялись бы тогда причинностью. Однако идеи Гальтона о корреляции заменили Пирсону причинность, в особенности это касалось биологических наук.
Он стал противником причинно-следственных связей, считал, что Вселенная
управляется не законами причинно-следственной связи в своей узкой форме, а больше изменчивостью, которой отводилась крупная роль в объяснении явлений.

117







Пирсон предупреждал своих студентов, что корреляцию не следует понимать
как признак причинности. Хотя он и осознавал, что «для тех, кто настаивает
на сведении всех корреляций к действию лишь причин и следствий, тот факт,
что корреляция может быть установлена и между двумя не имеющими связи
явлениями, такое положение дел может оказаться шоком». Более того, направление причинности неизвестно: X вызывает Y или Y вызывает X?

Не все корреляции являются подлинными.
Возможно найти математически
идеальную корреляцию, которая
будет абсолютна бессмысленна.

Я называю
это ложной
корреляцией.
корреляцией

Следовательно, математически идеальная корреляция не означает причинности: она просто значит, что две величины очень сильно коррелируют друг
с другом. Такой результат может получаться и в случае ложной иллюзорной
(или кажущейся) корреляции из-за влияния третьей величины, называемой
скрытой величиной. Если квалификация студентов университетов сильно
коррелирует с их последующими доходами (чем лучше знания, тем выше
зарплата), эта корреляция может возникать вследствие третьей (скрытой, или
неявной) величины, например, способности усердно трудиться.

118

Пат-анализ и причинность
Биолог-эволюционист Сьюалл Райт (Wright) расширил идеи Пирсона о корреляции в области причины и следствия, изобразив на рисунке логические
и методологические взаимосвязи между корреляцией и причинностью.
Используя пирсоновскую множественную регрессию (см. с. 134–138), в 1918 году
Райт придумал статистическую методологию, которую он назвал
пат-анализом.

Он означает,
что я могу применять
математические и социологические научные модели для
интерпретации корреляции
в сложных причинных системах, используя неэмпирические данные.

Я могу потенциально открыть причинно-следственные связи
между величинами.



: 


119

Корреляционные диаграммы,
или диаграммы рассеяния
Корреляция часто изображается графически в виде так называемых корреляционных диаграмм для того, чтобы увидеть ее форму. Если две величины
дают узкий эллипс, который напоминает прямую линию, это будет означать
высокую корреляцию. Обычный эллипс говорит о средней корреляции, а круг
обозначает отсутствие корреляции. С помощью такого способа измеряется
сила (высокая, средняя или низкая) взаимосвязи.
КОРРЕЛЯЦИОННАЯ
ДИАГРАММА

СИЛА
КОРРЕЛЯЦИИ
ОТРАЖАЕТ
ИДЕАЛЬНУЮ
ПОЛОЖИТЕЛЬНУЮ
КОРРЕЛЯЦИЮ

ВЫСОКАЯ
ПОЛОЖИТЕЛЬНАЯ
КОРРЕЛЯЦИЯ

,

,

УМЕРЕННАЯ
ПОЛОЖИТЕЛЬНАЯ
КОРРЕЛЯЦИЯ

ОТСУТСТВИЕ
КОРРЕЛЯЦИИ

,

,

Однако корреляцию невозможно перевести в проценты. Следовательно,
умеренная корреляция 0,55 или высокая 0,80 не соответствует 55% или 80%,
как ошибочно полагают некоторые люди.

120

Велдон и отрицательная
корреляция
Числовой индекс, который дает корреляция, также показывает направление
взаимосвязи. Две величины могут или расти, или убывать одновременно
(например, рост и масса тела здоровых детей увеличиваются), или же одна
величина растет, а вторая убывает (например, чем быстрее едешь на машине, тем скорее прибываешь в пункт назначения, т. е. скорость растет, время
убывает). Первый процесс дает положительную, или прямую, корреляцию,
а второй дает отрицательную, или обратную, корреляцию.
В 1896 году я предложил Пирсону идею отрицательной, или обратной,
корреляции.
Следовательно,
значения коэффициента корреляции варьируются в диапазоне от
-1,00 до 1,00, а не в диапазоне от
0 до 1,00, как впервые предложил Гальтон.

. . .  
    ; 
    

КОРРЕЛЯЦИОННАЯ
ДИАГРАММА
Высокая

НАПРАВЛЕНИЕ
КОРРЕЛЯЦИИ
ИДЕАЛЬНАЯ
ОТРИЦАТЕЛЬНАЯ КОРРЕЛЯЦИЯ

Величина 2

Низкая
Низкая

ВЫСОКАЯ ОТРИЦАТЕЛЬНАЯ
КОРРЕЛЯЦИЯ

,

Высокая
Величина 1

121

Взаимосвязи переменных,
представленные разными кривыми
Несмотря на то, что численный индекс предоставляет информацию о степени
линейной взаимосвязи, корреляционная диаграмма, или диаграмма рассеяния — это полезный инструмент, потому что он способен показать взаимосвязь
переменных посредством кривых. В 1905 году Пирсон ввел в оборот корреляционное соотношение (correlation ratio) для измерения именно таких связей.

ЧЕЛОВЕЧЕСКИЕ ХАРАКТЕРИСТИКИ

Возраст, соотнесенный с кривой роста в течение жизни, представляет собой
довольно сложную кривую на графике, хотя кривая роста в детстве линейна.
Дети продолжают расти до юности: они становятся выше, у них появляется
волосяной покров, и сами они делаются более проворными, ловкими и гибкими. Однако продолжительность жизни представляет собой уже кривую, а не
прямую, так как некоторые из этих характеристик сокращается с возрастом:
рост уменьшается, мужчины имеют склонность к облысению, в целом люди
становятся менее ловкими и гибкими в процессе старения.

ВОЗРАСТ

122

Гальтон и биологическая регрессия
До своих работ по корреляции Гальтон занимался регрессией.

Мне хотелось узнать, как
получается, что последующие поколения
так во многом похожи...

...а также
то, почему потомство
различается – некоторые
выше, а некоторые ниже
своих родителей.





В 1875 году Гальтон измерял диаметр и вес тысяч пар матерей и дочерей
душистого горошка и обнаружил, что популяция потомства возвращается
к родителям и следует закону нормального распределения. Если размер
матери-горошка увеличивался, то размер дочери-горошка также будет
увеличиваться, но потомство не будет таким большим или таким маленьким, как мать-горошек. Следовательно, оно «регрессирует», оно возвращается назад к размеру «горошка-прародителя».
НАСЛЕДСТВЕННОСТЬ РАЗМЕРА СЕМЯН ДУШИСТОГО ГОРОШКА

РОДИТЕЛЬСКОЕ
СРЕДНЕАРИФМЕТИЧЕСКОЕ

В МИЛЛИМЕТРАХ

ДИАМЕТР ПОТОМСТВА ГОРОШКА

ЛЕКЦИЯ ГАЛЬТОНА В КОРОЛЕВСКОЙ АССОЦИАЦИИ В 1877 ГОДУ.

СРЕДНЕАРИФМЕТИЧЕСКОЕ ПОТОМСТВА

,

ДИАМЕТР РОДИТЕЛЯ ГОРОШКА
В МИЛЛИМЕТРАХ

ГАЛЬТОНОВА ЛИНИЯ РЕГРЕССИИ ДУШИСТОГО ГОРОШКА

123

Регрессия
к среднему значению
Она обозначает тенденцию какой-либо характеристики популяции сдвигаться
от крайних значений ближе к средним.
Гальтон интересовался корреляцией роста у отцов и сыновей, так как ее было
легко измерить и она оставалась устойчивой на протяжении взрослой жизни.

Я понял, что
корреляция была в двух
направлениях и порождала
две кривые регрессии: одна
от потомков к родителям
и вторая от родителей
к потомкам.

Однако результат Гальтона создал парадокс, который противоречил тому, что
он понимал под односторонней регрессией. Гальтону пришлось объяснять,
как рост потомков мог влиять на рост родителей.
ОТКЛОНЕНИЕ СРЕДНЕГО РОСТА ДЕТЕЙ ПО СРАВНЕНИЮ
СО СРЕДНИМ РОСТОМ ИХ РОДИТЕЛЕЙ ОТНОСИТСЯ КАК 2 К 3

ТИ
ДЕ

ЛИ
ТЕ
И
ЕСЛИ СРЕДНИЙ РОСТ РОДИТЕЛЕЙ
Д
РО
НИЖЕ СТАНДАРТНОГО,
ТО СРЕДНИЙ РОСТ ИХ ДЕТЕЙ
БУДЕТ ИМЕТЬ ТЕНДЕНЦИИ
К ПОВЫШЕНИЮ.

124

ОТКЛОНЕНИЕ В ДЮЙМАХ

И
ЕЛ
ИТ
Д
РО
ТИ
ДЕ

РОСТ В ДЮЙМАХ

ЕСЛИ СРЕДНИЙ РОСТ
РОДИТЕЛЕЙ ВЫШЕ
СТАНДАРТНОГО, ТО СРЕДНИЙ
РОСТ ИХ ДЕТЕЙ БУДЕТ ИМЕТЬ
ТЕНДЕНЦИЮ К СНИЖЕНИЮ.

Две кривые
регрессии
Гальтона
Пока Гальтон демонстрировал существование корреляции между отцами и сыновьями, две его кривые
регрессии давали другую
картину. Кривые на верхней части графика (см. с.
124) показывают, что если
родители были выше среднего, то их дети будут ниже
своих родителей: показатель среднего роста детей
«регрессирует» к среднему
значению. И наоборот,
линии регрессии в нижней
части графика показывают, что если родители
были ниже среднего, то их
дети будут выше своих родителей, показатель среднего роста будет также
«регрессировать» к среднему значению.

125

Рост отцов и детей используется для иллюстрации отдельного случая регрессии к среднему
значению.

Таблица А
Регрессия роста отца
к росту сына
Отец = 185 см
Среднеарифметическое = 170 см
Сын = 179 см

Таблица Б
Регрессия роста сына
к росту отца
Сын = 188 см
Среднеарифметическое = 175 см
Отец = 170 см

Во второй таблице рост
сына равняется 188 см, регрессия роста отца ведет
к отметке в 170 см. Здесь
рост отца ниже среднего,
однако его сын выше отца.

126

272 СМ].
ВЗРОСЛЫМ И РЕБЕНКОМ [ЕГО РОСТ БЫЛ

РОБЕРТ ПЕРШИНГ УОДЛОУ (WАDLOW) (1918–1940) —

САМЫЙ ВЫСОКИЙ ЧЕЛОВЕК В МИРЕ, В СРАВНЕНИИ С ОБЫЧНЫМ

В первой таблице средний рост взят из выборки
100 отцов и их сыновей и равняется 170 см,
а рост отца равняется
185 см. Если происходит
регрессия роста от отцов
к сыновьям, то рост сына
179 см. Рост отца выше
среднего, однако сын
ниже отца, следовательно, значение регрессирует
к среднему значению.

Так как регрессия к среднему значению обозначает склонность
характеристики популяции сдвигаться от крайних значений к средним,
это укрепило мнение Гальтона о том, что распределение всегда будет
нормальным. Он был убежден, что естественный отбор не мог создавать
постоянные перемены в популяции, так как следующее поколение будет
регрессировать к среднему значению вида.
Гальтон не учел тот факт, что последующее размножение и воспроизводство
потомства после естественного отбора изменило форму распределения:
кривая нормального распределения восстанавливается, но с другим среднеарифметическим значением (см. с. 93).
СРЕДНИЕ ПОПУЛЯЦИИ
СДВИГАЮТСЯ В ОДНОМ
НАПРАВЛЕНИИ

Однако регрессия не влияет на изменчивость (или дисперсию) популяции:
изменчивость не уменьшается вследствие явления регрессии.

ЗАЛИТАЯ КРИВАЯ = ОРИГИНАЛЬНАЯ КРИВАЯ ДО ОТБОРА

Какие
регрессии!

ПУНКТИРНАЯ КРИВАЯ = НОВАЯ КРИВАЯ НОРМАЛЬНОГО
РАСПРЕДЕЛЕНИЯ С ДРУГИМ СРЕДНИМ ЗНАЧЕНИЕМ, ПОЛУЧИВШИМСЯ ПОСЛЕ ОТБОРА.

ЗЕФИР

127

Джордж Удни Юл и метод
наименьших квадратов
В конце XIX века студент Пирсона Джордж Удни Юл (Yule) (1875–1951) ввел новый подход к интерпретации корреляции и регрессии с концептуально новым
использованием
метода наименьших квадратов,
который является
математическим
инструментом для
корректировки
влияния ошибок
при построении
кривых регрессии
по точкам.

:

Этот метод
вычисляет
наиболее
приближенную кривую
для данных
наблюдения,
уменьшая
сумму квадратов вертикальных
отклонений
от каждой
точки данных
к кривой регрессии.

128

При использовании метода
наименьших квадратов
регрессивный анализ позволял
статистикам оценить зависимость
величины Y (зависимой величины
или той, над которой производятся
операции) от определенной
величины X (независимой
величины или той, которая
изучается).

Однако сегодня для многих прикладных
статистиков регрессия часто является исключительно способом определения линейного прогноза...

двух
непрерывных
величин
с использованием
метода наименьших квадратов
для производства
статистических
прогнозов.

Несмотря на то что метод наименьших квадратов может быть использован
при анализе линий регрессии, большая часть замешательств, связанных
с регрессией к среднему значению, может быть приписана тем, кто забывает,
что регрессия к среднему значению Гальтона состоит из двух кривых регрессии, а не одной кривой, которую можно было бы использовать для предсказания будущих исходов (с помощью метода наименьших квадратов).

129

Корреляция против регрессии
Несмотря на то что Гальтон хотел измерить корреляцию роста между отцами и сыновьями, в 1896 году Пирсон открыл, что метод Гальтона для поиска
«со-отношения» (со-relation), как он его назвал, измеряет угол наклона линии
регрессии, который является коэффициентом регрессии.

УГОЛ НАКЛОНА =
АС/ВС

Гальтон строил линию с произвольным наклоном, а затем проверял, будет
ли угол наклона равняться 1. Если значение равнялось 1, это означало, что
предсказанный рост детей был аналогичным родительскому. Если значение
было меньше 1, рост детей стремился к среднему значению и, как следствие,
давал более умеренные значения роста.

130

Дилемма Гальтона
Как так получалось, что, когда Гальтон пытался найти математическую формулу для корреляции, он всегда приходил к измерению регрессии?
Пирсон прояснил работу Гальтона.
Я показал, что ошибка Гальтона была
в том, что он предполагал, что есть «одинаковая колеблемость» между родителем
и потомком (т. е. что изменчивость, приведенная к некоему стандарту, должна
давать одинаковые числовые значения).

Пирсон смог измерить эту изменчивость отцов и сыновей по отдельности, используя свой метод среднеквадратического отклонения.
Затем он показал, что, если среднеквадратические отклонения характеристики потомка и родителя имеют одинаковые числовые значения, из этого следует, что коэффициент регрессии и коэффициент
корреляции также будут иметь одинаковые значения. Однако он
подчеркивал, что коэффициент корреляции и коэффициент регрессии практически всегда будут все-таки разными.
Итак, Гальтон объединял воедино понятия корреляции и регрессии
в своей работе. Пирсон преодолел одностороннюю концепцию Гальтона о регрессии, таким образом освободив его анализ от узости
человеческой наследственности, и превратил исследования
Гальтона в абсолютно статистическую концепцию. Так как
Пирсон показал, что формула Гальтона измеряла регрессию, он сохранил гальтоновскую r для обозначения коэффициента корреляции.

Пирсоновская корреляция
произведения моментов
Создав системный метод моментов, Пирсон придумал строгую математическую формулу для корреляции. Он показал, что оптимальные значения угла
наклона линии регрессии и коэффициент корреляции могут быть вычислены
на основании произведения моментов, где x и y — это отклонения наблюдаемых значений от своих арифметических средних, соответственно. Пирсон
нашел наилучшую формулу, которую в 1896 году назвал коэффициентом корреляции Пирсона (коэффициент корреляции произведения моментов):
ковариация
(стандартное отклонение x) × (стандартное отклонение y)

Ковариация Σ(xy) измеряет, как сильно отклонения двух случайных величин соотносятся друг с другом (см. с. 99).
Затем Пирсон определил, что коэффициент регрессии вычисляется по
формуле:
ковариация
дисперсия x

КОЭФФИЦИЕНТ

КОРРЕЛЯЦИИ

ПИРСОНА

132

ЗАВИСИМЫЕ ПЕРЕМЕННЫЕ
ОСЬ

Р. Э. Фишер: независимые
и зависимые переменные

ОСЬ

НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ

. . 
>



В 1925 году Рональд Эйлмер Фишер (Fisher) (1890–1962)
реконструировал систему нотации Пирсона, введя
Y=a+bX (обычное уравнение для прямой линии), и включил такие термины, как «независимая» и «зависимая»
переменные. Это было необходимым уточнением понятия
регрессии, так как независимые переменные являются
предикторами, предсказывающими переменными, а зависимые переменные являются критериями (определяющими переменными).
Затем Фишер создал уравнение линии регрессии (или
линии прогноза): Y’=a+bX (где b — коэффициент регрессии, а Y’, произносимый «игрек-штрих», обозначает
линию регрессии).

Следовательно, регрессия
может быть использована при прогнозировании,
например доходов
в зависимости от
возраста...

133

...или
предсказании того,
потребуется ли более
тяжелым машинам больше
топлива, где X — масса машины, а Y — расход топлива (в галлонах
на 1 км).

Обычнаякорреляция
и множественная корреляция
Пирсон ввел понятие обычной корреляции, измеряя линейные взаимосвязи между двумя непрерывными величинами, такими как взаимосвязь между
ростом отца и ростом сына.







Когда я заинтересовался измерением взаимосвязи между
объектами более чем двух поколений, мне потребовались
другие статистические
методы.













;



В 1892 году
мне уже приходилось работать с корреляциями трех величин, которые
я выразил через «функции
Гальтона», названные
так Велдоном
в 1889 году.

134

Когда я
предложил математическое решение работ
Гальтона, я придумал математическую структуру для множественной корреляции,
обозначенной R.

…для измерения взаимосвязи трех и более
непрерывных величин (т. е. между одной зависимой переменной и комбинированным набором двух и более независимых). Следовательно,
множественная корреляция состоит из одновременных вычислений коэффициентов корреляции
нескольких величин.

Эта работа стала основой развития метода множественной регрессии.
Подобно обычной регрессии, она включает в себя линейное прогнозирование, но вместо одной прогнозируемой переменной может быть использован набор переменных.

ПОТРЕБЛЕНИЕ ПИЩИ
КОЛИЧЕСТВО УПРАЖНЕНИЙ
ИНДЕКС МАССЫ ТЕЛА

ПЕРЕСЕЧЕНИЯ
ТРЕХ ПЕРЕМЕННЫХ

135

Для вычисления коэффициента
множественной корреляции Пирсон использовал более сложные
математические модели. Это
В матемесыграло ключевую роль в созтической статистике
после 1930-х годов пирдании в конце XIX века такой
соновская математическая
академической дисциплины,
модель была вытеснена
как математическая статиматричной
стика. Пирсон изучал высалгеброй.
шую математику в Кембридже у Джеймса
МаДжозефа Сильвестра
тричная алгебра осталась
и у Артура Кейли
центральной для
(Cayley) (1821–1895).
многомерной
Они создали мастатистики.
тричную алгебру
на основе своих открытий
в теории инвариантов
в середине
XIX века.







Матрица ПРИМЕР МАТРИЧНОЙ
АЛГЕБРЫ
Матрица

столбца
4 строки

строки
3 столбца

Размерность матричного произведения

136





Этот новый, более высокий уровень математики позволял статистикам
найти сложные математические решения для статистических проблем
в многомерном (или n-мерном) пространстве, в котором двумерная модель является уже недостаточной.

ГЕОМЕТРИЧЕСКОЕ
ПРЕДСТАВЛЕНИЕ
МНОЖЕСТВЕННОЙ
РЕГРЕССИИ
(НА ПЛОСКОЙ ПОВЕРХНОСТИ)

ДВУМЕРНАЯ
ЛИНИЯ
РЕГРЕССИИ

Проблема обозначена графиком в трехмерном пространстве для задачи
множественной регрессии и графиком в двумерном пространстве
для обычной регрессии.

137

Статистический контроль
Ученые используют два типа контроля во время своих исследований:
экспериментальный и статистический.

Первый тип
состоит в действиях исследователя, таких как внесение элемента случайности (рандомизация)
и работа с исходными данными
(«манипулирование»)...

...в то время как
статистический контроль, который состоит в математических преобразованиях, часто является первым
шагом в направлении экспериментального контроля.

В 1895 году Пирсон предложил один из способов статистического контроля
некоторых переменных, введя частную корреляцию, которая используется только вместе с множественной корреляцией, следовательно, включает в себя три и более переменных.
Это корреляция между зависимой переменной и одной из независимых
переменных. При этом исследователь убирает статистическое влияние всех
прочих независимых переменных на эту искомую независимую переменную.
Как следствие, исследователь может математически изолировать эту переменную, тогда как экспериментально она вообще не может быть изолирована. Статистики относятся к таким случаям так, как если бы одной из переменных просто не существовало (как мы увидим далее, частная корреляция
связана с анализом ковариации Р. Э. Фишера).

138

Например,
если диетологи
захотят узнать, какие
факторы влияют на снижение веса, оценивая важность
физических упражнений,
потребление калорий
и потребление
жира...

...это была бы
множественная корреляция, которая могла бы показать,
что все три переменные объясняют
снижение веса лучше, чем любая
из них поодиночке.

Однако если бы исследователи захотели рассмотреть изолированно лишь
один эффект сокращения калорий, они могли бы использовать частную
корреляцию для удаления влияния переменных потребления жира и упражнений из полного набора независимых переменных. Такое исследование
показало бы исключительно роль потребления калорий в снижении веса.
Джордж Удни Юл позже ввел частную корреляцию, в которой статистик
элиминировал эффекты одной или нескольких независимых переменных
сразу и для зависимой переменной, и для одной из прочих оставшихся
независимых. Частная корреляция, понимаемая таким образом, помогает
выявить ложную корреляцию (см. с. 118).

139

Дискретные взаимосвязи 2х2
В 1900 году Пирсон ввел два новых метода: тетрахорический (т. е. «четырехэлементный») коэффициент корреляции (rt); и свой фи-коэффициент
(phi coefficient) (ϕ), известный позднее как «фи-коэффициент Пирсона» для
дискретных величин. Оба метода измеряли ассоциативные связи между
двумя переменными, размещенными в таблицах 2х2 (или четырехклеточных). Эти величины могли быть помещены в две взаимоисключающие категории (назывались «дихотомическими» переменными).
ВЫЖИВШИЕ

УМЕРШИЕ

СБЕЖАВШИЕ

ИНЦИДЕНТ

ЗАРАЖЕННЫЕ

ПРИМЕР ИСПОЛЬЗОВАНИЯ
ЧЕТЫРЕХКЛЕТОЧНОЙ
ТАБЛИЦЫ (МАТРИЦЫ)
ИЗ ИССЛЕДОВАНИЯ
ПИРСОНА ОТ 1904 ГОДА
ОБ ЭФФЕКТИВНОСТИ
ВАКЦИНЫ, ЗАЩИЩАЮЩЕЙ
ОТ БРЮШНОГО ТИФА.

Фи-коэффициент Пирсона был придуман для случая двух переменных,
которые находились между собой в истинной (подлинной) дихотомии. Как
следствие, эти переменные не были непрерывными. Эта техника широко
используется психометристами для создания тестов в ситуациях, в которых присутствует истинная дихотомия. Например, это так называемые «да/
нет-тесты», (или тесты с ответами «истина» и «ложь»), которые используются
эпидемиологами для оценки фактора риска, связанного с «присутствием»
или «отсутствием» болезни (в сравнении со смертельными заболеваниями).

140

При тетрахорической (четырехпольной) корреляции дихотомия искусственна, так как величины по своей природе непрерывны, однако их можно разбить
на две группы. Как следствие, когда
измеряется рост в дюймах или сантиметрах, его следует рассматривать
как непрерывную величину. Однако
можно создать искусственную дихотомию, классифицируя субъектов на
«высоких» и «низких». Подобным образом можно рассмотреть возраст и
уровень дохода. Сами по себе
эти величины непрерывные,
но обе опять-таки можно разбить
на группы молодые/пожилые или
богатые/бедные.
Изменения непрерывных
величин в искусственных
дихотомиях
Переменная

Непрерывная шкала

Дихотомические
значения

Человеческий
рост

От 1 до
2,5 метра

Низкий/
Высокий

Возраст

От 1 года
до 100 лет

Молодой/
Пожилой

Доход

От 20 000
до 2 000 000
фунтов
стерлингов

Бедный/
Богатый

141

Q-статистика Юла
Юл предложил Q-статистику,
которую он назвал
в честь Кетле в 1899 году
(через месяц после того, как
Пирсон ввел свой фи-коэффициент и тетрахорическую корреляцию).
Юл также искал способ измерения,
который не был бы привязан к непрерывным величинам или не зависел бы
от нормального распределения, как было
в случае с корреляцией произведения моментов Пирсона.
Я обнаружил, что
мое Q (диапазон значений от -1,00
до 1,00) оказывалось всегда чуть выше,
чем тетрахорическая корреляция
Пирсона.

Социологи были первыми, кто применил
в своих работах Q-статистику Юла. Ее
использовали медицинские статистики
в конце XX века, и она стала мерой ассоциативной связи в случаях, которые
возникали напрямую из ячеек таблицы
2х2. Теперь это соотношение известно
как коэффициент несогласия*, который
основывался на Q-статистике Юла.

* Коэ ф ф и ц и е н т
н е со гл а си я (odds
ratio) — это способ сравнения
вероятностей наступления некоторого события, произошедшего в обоих
группах (будут ли эти вероятности одинаковыми). — Прим. науч. ред.

142

Бисериальные корреляции
Пирсон придумал бисериальную корреляцию в 1909 году. Она относится
к корреляции произведения моментов (в которой обе переменные являются
непрерывными), но с одним отличием.
Значение
одной из переменных —
это искусственная дихотомия,
Точка отсенапример «прошел успешно —
чения для тестовых
не прошел» в тесте.
испытаний — «прошел —
не прошел» может быть
определена по-разному.

Как мы увидим далее, бисериальная корреляция похожа на t-статистику
Стьюдента и дисперсионный анализ Фишера.
Точечно-бисериальная корреляция связана с бисериальной корреляцией
Пирсона, однако здесь одна переменная непрерывная, а другая измеряется по
дихотомической шкале («истинная дихотомия»), например мужской/женский пол.
Этот тип корреляции представлял бы собой приближенную оценку корреляции
произведения моментов, если бы в корреляции произведения моментов дихотомическая переменная была бы заменена непрерывной переменной.

143

Есть два основных метода, которые широко используются психометристами для анализа исследуемых показателей при создании различных тестов
на уровень интеллекта и способностей. Бисериальная корреляция обычно
используется для определения корреляции между баллами исследуемого
показателя и общими баллами за прохождение теста.
У КОГО ВЫШЕ
ИЛИ НИЖЕ АРТЕРИАЛЬНОЕ ДАВЛЕНИЕ?

ИУДЕЙ

ХРИСТИАНИН

ПРИМЕР ТРИСЕРИАЛЬНОЙ КОРРЕЛЯЦИИ: АРТЕРИАЛЬНОЕ ДАВЛЕНИЕ
В СВЯЗИ С ТРЕМЯ
ОСНОВНЫМИ РЕЛИГИЯМИ.

МУСУЛЬМАНИН

Когда точечно-бисериальную
корреляцию используют для
нахождения корреляции между
баллами исследуемого показателя и общими баллами за тест...
...получается
статистическое измерение «внутренней согласованности» исследуемых
показателей теста.

Трисериальная корреляция Пирсона похожа на бисериальную, в которой одна переменная непрерывная, а вторая является трихотомией (например, низкий, средний, высокий).

144

Эгон Пирсон
и полихорические корреляции
В 1922 году Пирсон со своим сыном Эгоном придумал полихорическую
корреляцию.
Она похожа на тетрахорическую корреляцию, за исключением того, что есть
три или более возможных значения, которые может принимать переменная.
Если тетрахорическая корреляция ограничена таблицей сопряжения признаков 2х2, где переменные могут принимать только бинарные значения
(т. е. 0, 1), то для полихорической корреляции используется таблица nxn,
а значения переменных полисериальны (0, 1, 2, 3, 4…). Как следствие, в таблице содержится три и более категорий.



Например, исследователь может классифицировать уровень боли в таких категориях: отсутствует = 0, легкая = 1, умеренная = 2, острая = 3 и использовать эту
классификацию для различных болезней,
таких как рассеянный склероз, артрит, мигрени и остеопороз.





  
Вид
заболевания Отсутствует = 0

Легкая = 1

Рассеянный
склероз
Мигрени
Артрит
Остеопороз

145

Умеренная = 2

Острая = 3

Я
А
В ИЯ
О
Г Ц
Н
Я
А
Л
Р Е
Р
Р
КО
Ранговая корреляция изучает взаимосвязи между различными порядковыми номерами (рангами) одних и тех же данных. Она позволяет измерить
зависимость между двумя порядковыми номерами, и оценить ее статистическую значимость. Два основных метода были придуманы студентом
Карла Пирсона Чарльзом Спирменом (Spearman) (1863–1945) и Морисом
Кендаллом (Kendall). Три других теста — это критерий знаковых рангов Уилкоксона (Wilcoxon), U-критерий Манна — Уитни
(Mann — Whitney) и анализ рангов Крускала —
Я позаимствовал идеи Гальтона
Уоллиса (Kruskal — Wаllis).
об упорядоченных значениях,
придумав в 1906 году ранговую
корреляцию («ро», ρ)
Спирмена.

В принципе этот метод — один из особых случаев коэффициента
корреляции произведения моментов Пирсона, в котором данные
преобразованы (еще до вычисления коэффициента) в ранги, от высшего к низшему.

146

Факторный анализ





Я продолжил
свою работу по созданию
первой психометрической теории интеллекта с помощью своей
двухфакторной теории, которая
измеряет общие и особые
способности.





Спирмен также интересовался идеями Гальтона об измерении индивидуальных различий человеческих способностей и его ранними подходами к измерению интеллекта. Используя корреляцию произведения моментов Пирсона
и метод главных компонент*, который Пирсон придумал в 1901 году, Спирмен
создал новый статистический метод, известный как факторный анализ,
который сводил набор сложных данных в более удобную для работы форму,
позволяющую увидеть структуру взаимосвязи между переменными.

* Общая статистическая процедура по поиску оптимального представления набора данных, обладающих свойством коррелированности друг с другом. — Прим.
науч. ред.

147

Тау-коэффициент Мориса Кендалла
В 1938 году английский статистик Морис Кендалл (1907–1983) создал другой
метод для ранговой корреляции, известный как метод Кендалла. Этот метод — схема, основанная на согласованности или несогласованности упорядоченных (ранговых) данных.
Тау
Он показывает вероятность,
разграничивая вероятность,
которая получается из
данных наблюдения...





Ро



...двух величин одного ранга,
и вероятность существования этих же двух величин,
но уже имеющих неодинаковый ранг.

Тау-коэффициент Кендалла часто используется в выборках, которые шире,
чем те, с которыми работает метод Спирмена и его коэффициент «ро» (ρ).

148

Корреляция против
ассоциативной связи
Эти термины используются для описания двух разных процедур, измеряющих
статистические взаимосвязи.

:

Я использовал
термин «корреляция» для описания силы и направления взаимосвязи
между двумя и более непрерывными
случайными переменными, которые
имеют нормальное распределение.







И в 1899 году я
ввел термин «ассоциативная
связь» (или просто «ассоциация»)
для двух и более дискретных переменных, которые не подходят под
нормальное, непрерывное распределение.

I. Методы корреляции — это:

  ,
   
 

  (
  



и частная корреляция Юла



  )

Тетрахорическая корреляция

 

II. Измерение ассоциативной связи, в которой обе переменные являются
номинальными:
Фи-коэффициент

 - 
( . . 153—156)



 Q- 

III. Смешанные (прикладные) измерения, в которых одна переменная
дискретная, а вторая непрерывная:
Полихорическая корреляция



Тау-коэффициент
Кендалла

 
  

« » (ρ)

149





U-критерий
Манна — Уитни
и анализ рангов
Крускала — Уоллиса

Статистические критерии согласия

Одним из способов использования нормального распределения для анализа
или интерпретации данных, является метод, называемый статистическим критерием согласия. Он позволяет ученому-статистику увидеть, насколько точно
данные соответствуют нормальному распределению.
До 1900 года
это был основной способ,
благодаря которому статистики
могли делать какие-то вероятностные утверждения относительно полученных ими
результатов.

Это означает,
что статистик может сказать,
распределены ли данные согласно
нормальному закону, и затем сделать
вероятностные утверждения
по этому вопросу.





Наш поборник нормального распределения, Адольф Кетле сделал одну из
первых попыток построить кривую нормального распределения по данным
наблюдений в 1840 году, которую Гальтон начал использовать в 1863 году.
Методы Кетле были графическими, для построения он использовал таблицу
данных, основанную на биномиальном распределении, вместо того чтобы использовать приближения кривой нормального распределения. Большая часть
трудов Гальтона не состояла из построения кривых в чистом виде, наоборот,
он сравнивал вычисленные им значения с таблицей нормального распределения вероятностей.

150


 
 

..


 
 ;
...

В 1877 году Вильгельм Лексис придумал соотношение Лексиса L как
статистический критерий согласия
для определения того, согласуется
ли эмпирическое распределение
с нормальным распределением.
В 1887 году Фрэнсис Исидро Эджуорт придумал статистический
критерий, согласия который был
основан на приближении нормального закона к биномиальному распределению. Хотя многие
другие ученые XIX века пытались
придумать статистические критерии согласия, им (в отличие
от Пирсона) не удалось создать
теоретическую базу для своих
формул.

До того как Пирсон придумал новый статистический критерий согласия, обычный метод состоял в сравнении ошибок наблюдения с таблицей распределения вероятностей, основанной на кривой нормального распределения, или,
если использовать графические средства, в сравнении c диаграммой плотности распределения. Как это объяснял в 1936 году биолог-эволюционист
Джон Бердон Сандерсон Холдейн (Haldane) (1892–1962):



Он служит критерием
для значимости коэффициентов регрессии.

В дальнейшем Фишер развил идеи Госсета, придумав свой «дисперсионный
анализ» для своих классических экспериментов с пшеницей, проведенных
на Ротамстедской экспериментальной станции в Харпендене, Хартфордшир
(к северу от Лондона).

165

Новая эра статистики:
Ротамстедские
сельскохозяйственные данные

Ротамстед — это один из наиболее древних сельскохозяйственных центров в мире, основанный в 1834 году Джоном
Беннетом Лоусом (Lawes) (1814–1902), чьи предки владели
этой землей с 1623 года.

>



После получения степени в Оксфорде
Лоус вернулся в поместье Ротамстед и превратил сарай в химическую
лабораторию, в которой он проводил
эксперименты с минеральными фосфатами с различным количеством
серной и других кислот.

Это стало началом индустрии искусственных удобрений
и произвело революцию в британском
сельском хозяйстве.

166



Несмотря на то, что в 1919 году Пирсон предложил Фишеру должность
в Университетском колледже Лондона, Фишер принял предложение сэра
Джона Расселла (Russell) по работе в Ротамстедской экспериментальной
станции для анализа сельскохозяйственных данных Броудболк (Broadbalk),
в ходе которого его статистические инновации принесли свои плоды.

В 1834 году химик Джозеф Генри Гилберт (Gilbert) (1817–1901) присоединился к Лоусу в его работе над экспериментальной культивацией в полях
Броудболк. На основе своей работы они опубликовали все статистические
детали своих наблюдений и экспериментов и обнаружили, что непрерывно
удобряемые поля давали от 12 до 13 бушелей в год, в то время как хорошоу навоженные поля давали от 30 до 40 бушелей в год.
С концом Первой мировой войны в 1918 году связано расширение
и перестройка Ротамстеда. В следующем году сельскохозяйственный
химик Эдвард Джон Расселл (1872–1965) взял на работу кембриджского
математика Фишера.

СБОР УРОЖАЯ НА ПОЛЯХ БРОУДБОЛК

Меня попросили работать
так долго, как того потребуют обстоятельства
для выяснения того, были
ли записи Лоуса
и Гилберта подходящими
для статистического
анализа.







167

Дисперсионный анализ Фишера
С 1919 по 1926 год Фишер закладывал принципы проведения экспериментов и развивал свою статистическую методологию дисперсионного анализа,
которым он начал заниматься в 1916 году (ANOVA). Пока все эксперименты
были завязаны на отношения между величинами, не было систематического способа определить эти взаимосвязи до того, как Фишер представил
новую инновационную методологию в своей влиятельной книге Statistical
Methods for Research Workers (1925 год)*.

В Ротамстеде
задача Фишера заключалась в статистическом анализе данных
о погоде, урожайности
и удобрениях, которые
были собраны за
66 лет.

Я решил
рассмотреть суммарную
величину изменчивости в данных для определения того, какие
факторы оказывали решающее
влияние на качество
пшеницы.

* Фишер Р. Статистические методы для исследователей / Пер. с англ. М. :
Госстатиздат, 1958. — Прим. науч. ред.

168

Анализ изменчивости
в сельском хозяйстве
Фишер понял, что было необходимо провести различие между тремя типами изменчивости урожайности пшеницы: годовой изменчивостью, которая
находилась под прямым влиянием погодных условий, стимулирующих рост
растений, а также физических свойств почвы; устойчиво-постоянной изменчивостью, которая была связана с ухудшением питательной среды почвы;
и медленной изменчивостью, которая была связана с небольшими непредсказуемыми изменениями.
Анализируя
различные посевы пшеницы, я разглядел в общей
картине (т. е. в суммарном эффекте) влияние сильных дождей
на урожай, которое связано
с вымыванием растворимых
нитратов.

Открытия Фишера
говорили о том, что богатые азотом удобрения лучше использовать весной, нежели осенью, для того, чтобы
улучшить качество пшеницы.

169

Дисперсионный анализ
и малые выборки
Дисперсионный анализ — это дисциплина и методология, связанная с набором статистических моделей для экспериментальных данных, которые
подразделяют наблюдаемую изменчивость на несколько частей. Такое
разделение дисперсии является ключевым для статистической методологии
Фишера.
Если t-критерий Стьюдента используется
для определения статистической
значимости разницы двух групповых средних (внутри каждой
из групп)...

Й
РИ
ТЕ
РИ

К
t-

А
НТ
ДЕ
ЬЮ

СТ

ЧАЙ

...то дисперсионный анализ Фишера
использует F-критерий, вместе
с F-таблицей для определения,
есть ли (в статистическом смысле) значимая разница в групповом среднем.

СТЬ

ЮД
ЕНТ
А

Если значение статистически
значимо, то t-критерий
используется для определения разницы между любыми
двумя средними в целях
локализации этой
разницы.

Фишер придумал ковариационный анализ (АNCOVA) в 1932 году для статистического контроля за переменными. Анализ заключается в том, что «ковариирует» влияние одной переменной на все другие переменные, и это может увеличить точность эксперимента, снижая дисперсию ошибки. В 1896 году
Пирсон представил похожий анализ с частной корреляцией.

170

Статистика вывода
Основываясь на методах Пирсона, Фишер не только расширил существующую терминологию, но его статистические инновации стали основой второй
фазы развития современной математической статистики благодаря его занятиям статистикой вывода. Если случайная вариация (или изменчивость)
является основой статистики вывода, отличительной особенностью этой новой
формы статистики является формальное тестирование гипотез и теория статистического оценивания.

Тестирование гипотезы — это научная процедура, позволяющая принимать
рациональные решения относительно двух разных утверждений. Теория
оценивания — это ветвь статистики, которая связана с оценкой значений параметров (см. следующую страницу), базирующейся на данных, собранных
ученым. Например, политолог-аналитик хочет оценить количественное отношение совокупности голосующих в Великобритании.
Это отношение является неизвестным параметром,
и его оценка основана на случайной в своей основе и малой выборке голосующих.
Статистика, в которой используются
латинские буквы x, s и r (для среднеарифметического, среднеквадратического отклонения и корреляции, соответственно), преимущественно была создана Пирсоном.
Параметры, обозначаемые греческими буквами μ (мю),
σ (сигма малая) и ρ (ро), были
введены Фишером в 1922 году
для обозначения среднеарифметического, среднеквадратичческого отклонения и корреляции в генеральных совокупностях,
соответственно.
Следовательно, статистика относится к выборкам, так же как параметры относятся к генеральным
совокупностям.

171

Выборочное распределение
Для того чтобы делать обобщенные выводы о генеральной совокупности, статистическая информация берется из репрезентативной выборки.
Каждая выборка из генеральной совокупности имеет свои собственные статистические значения (X, s, или r), которые используются для оценки параметров этой генеральной совокупности (,
 или ). Согласно Фишеру, выборочная статистика должна быть
несмещенной оценкой соответствующего параметра генеральной
совокупности. (Фишер создал три другие оценки для
параметров, которые должны были иметь свойства
статистической состоятельности, эффективности
и достаточности).
Для того чтобы извлечь из выборочной статистики оценку параметра генеральной совокупности, ученый использует «выборочное
распределение». Вместо того чтобы пользоваться одной
выборкой, несколько выборок (или даже бесконечное количество выборок) берутся из генеральной
совокупности. Каждая выборка дает свои среднеарифметическое, среднеквадратическое отклонение
и корреляцию. Среднее этих статистических значений по всем выборкам должно близко подходить
к среднему по генеральной совокупности.
Следовательно, параметр генеральной совокупности — это способ суммирования распределения вероятностей, в то время как выборочная статистика —
это способ суммирования выборки наблюдений.
Основы метода Фишера построены не только на статистических трудах Пирсона, но также являются своеобразным переводом статистического языка Пирсона.
Оба они стали общеупотребительным языком современной математической статистической теории,
несмотря на то, что многие из статистических
методов Пирсона и его язык остаются частью
собственно статистической теории.

172

Заключение
Бюрократическая компиляция огромного объема
демографических данных викторианцами-статистиками позволила им создать статистическую систему,
измеряющую здоровье нации, которая привела к политическим реформам и созданию публичных актов
о здравоохранении в Британии. Идея демографических статистиков о том, что статистическая изменчивость — это дефект и источник ошибок, который
нужно устранить, была оспорена идеями Чарлза Дарвина о биологической изменчивости и статистической
изменчивости популяций биологических видов. Идеи
Дарвина способствовали созданию новой статистической методологии, которую основал Фрэнсис Гальтон,
чей интерес к измерению индивидуальных различий
поставил изменчивость на передовую фронта статистики. Работы Гальтона привлекли внимание У. Ф.
Р. Велдона, чьи идеи вдохновили и способствовали
появлению работ Карла Пирсона и его коллег при создании основ современной математической статистики.
Первый статистический критерий контроля качества
на производстве был придуман студентом Пирсона
Уильямом Сили Госсетом, чьи труды вдохновили Рональда Фишера на создание статистической системы
для анализа малых выборок, как следствие установив стандарты проведения статистического эксперимента и «рандомизации» в статистической теории.
Развитие Фишером статистики вывода стало основой
второй фазы развития современной математической
статистики.
Со времен XX века статистика стала языком для
медицинских, экономических и политических дискуссий. Как следствие, она проникла в повседневную
речь. Статистическая информация может оказать
сильное влияние на жизнь людей: на медицинское
лечение, выбор машины, дома или одежды и поддержку политических партий в ходе выборов. В движимом технологиями информационном XXI веке
понимание статистики остается первостепенным
элементом жизни.

173

Глоссарий основных статистических
терминов и понятий*
Agricultural variation — изменчивость
в сельском хозяйстве (в т. ч.
в земледелии)
Analysis of covariance (ANCOVA) — ковариационный анализ
Analysis of variance (ANOVA) — дисперсионный анализ
Association — ассоциация, ассоциативная связь
Association factor — коэффициент
ассоциации (связи переменных)
Averages — средние значения (в противопоставление «изменчивости»,
variation)
Bayesian approach — Байесовский
подход к анализу вероятностей
Bimodal distribution — бимодальное
распределение
Binomial distribution — биномиальное
распределение
Biserial correlation — бисериальная
корреляция
Categories — категории
Causation — причинность
Central limit theorem — центральная
предельная теорема
Chi-square system — система хи-квадрат
Clustered data — данные, распределенные по группам; сгруппированные по кластерам
Coefficient of variation — коэффициент изменчивости, коэффициент
вариации
Contingency tables — таблицы сопряженности (признаков)
Continuous / discrete data (variables) —
непрерывные / дискретные данные (переменные)
Continuous / discrete distribution — непрерывное / дискретное распределение
Correction factor — поправочный
коэффициент (Пирсона)
Correlation — корреляция
Correlation ratio — корреляционное
соотношение (Пирсона)
Covariance — ковариация
Curve-fitting for asymmetrical
distributions — подгонка (подбор)
кривой для асимметричных распределений
Curvilinear relationships — взаимосвя-

зи переменных, представленные
разными кривыми

Goodness of fit test — статистический
критерий согласия

Data management procedures — статистические процедуры управления данными
Degrees of freedom — степени свободы
Demography — демография
Dependent variables — зависимые
переменные
Determinism — детерминизм (в статистике)
Developmental correlation — корреляция развития (в эволюционной
биологии)
Dichotomies — дихотомии
Discrete data (variables) — дискретные
данные (переменные)
Directional selection — направленный
отбор, направленная селекция
Disruptive selection — разрывающий
отбор, разрушающая селекция
Distribution — распределение (вероятностей)

Histogram — гистограмма
Hypothesis testing — тестирование,
проверка статистических гипотез

Ecological correlations — экологические корреляции (в эволюционной
биологии)
Error curve — кривая ошибок
Estimation theory — теория статистического оценивания
Expected values — ожидаемые значения
F-distribution — F-распределение
Factor analysis — факторный анализ
Frequency distribution — плотность
вероятности, распределение частот (частостей)
Frequency polygon — полигон частот
Functional correlations — корреляции, выраженные в виде
функций
Games of chance — игры случая
Gaming theory — азартная игра, пари
Gaussian curve — кривая Гаусса (кривая нормального распределения)
Gaussian distribution — распределение Гаусса (нормальное распределение)
General Register Office — Управление
записи актов гражданского состояния (в Великобритании)

Incidental sampling — побочная выборка
Independent / dependent variables —
независимые / зависимые переменные
Inferential statistics — статистика (логического) вывода
Insurance statistics — страховая статистика
Interquartile range — интерквартильный размах
Kendall’s tau — тау-коэффициент
Кендалла (непараметрический
коэффициент ранговой корреляции)
Kruskall-Wallis analysis of ranks —
анализ рангов Крускала=Уоллиса
Kurtosis — эксцесс, коэффициент
эксцесса
Least squares method — метод наименьших квадратов
Lexican ratio, L — соотношение Лексиса
Malthusian populations — Мальтузианское население
Mann-Whitney U test — U-критерий
Манна-Уитни
Mathematical statistics — математическая статистика
Matrix algebra — матричная алгебра
Mean, arithmetical mean — арифметическое среднее, среднеарифметическое
Median — медиана, медианное
значение
Mesokurtic curves — кривые распределения с нулевым или нормальным эксцессом
Method of moments — метод моментов (Пирсона)
Mode — мода, модальное значение
Mortality statistics — статистика
смертности
Mortality tables — таблицы смертности

* Составлен научным редактором данного издания доктором экономических наук,
профессором НИУ ВШЭ и Финансового университета П.Н. Клюкиным.

174

Multiple correlation / regression —
множественная корреляция /
регрессия
Natural selection — естественный
отбор (в учении Ч. Дарвина)
Negative correlation — отрицательная
корреляция
Nominal / ordinal variables — номинальные / порядковые переменные
Normal distribution — нормальное
распределение
Normal curve — кривая нормального
распределения
Odds ratio — коэффициент несогласия (основан на Q-статистике
Юла)
Ordinal / nominal variables — порядковые / номинальные переменные
Outliers — выпадающие значения,
статистические выбросы
Part correlation — частная корреляция
Path analysis — пат-анализ
Pearson product-moment correlation
coefficient — коэффициент корреляции Пирсона
Pearsonian family of curves — семейство кривых Пирсона
Percentile — процентиль
Philosophy of statistics — философия
статистики
Platykurtic curves — кривые распределения с отрицательным
эксцессом
Plotted frequency diagram — график
плотности распределения, диаграмма частот
Point-biserial correlation — точечно-бисериальная корреляция
Poisson distribution — распределение
Пуассона
Polychoric correlation — полихорическая корреляция
Population — генеральная совокупность
Population distribution — распределение генеральной совокупности
Principles of least squares — принцип
наименьших квадратов
Probability — вероятность
Probability distribution — распределение вероятностей
Probability mass function — функция распределения масс (распределение вероятностей дискретной случайной величины)
Probability tables — таблицы значений
вероятности
Product-moment correlation — корре-

ляция произведения моментов
(К. Пирсона)
Purposive sampling — целевая выборка
Quantities — количества
Quartile — квартиль
Quetelismus — Кетлесимус (эпоха
господства идей Кетле)
Random sampling — случайная выборка
Random variables — случайные переменные
Randomization — рандомизация,
метод случайного отбора
Range — диапазон, размах
Range deviation — отклонение на
интервале
Rank order correlation — корреляция
рангов, ранговая корреляция
Regression coefficient — коэффициент
регрессии
Regression line — линия регрессии
Relative / absolute measure of
variation — относительная / абсолютная мера (характеристика)
изменчивости
Relative frequency — относительная
частота (частость)
Saltational origins — происхождение
(видов) в рамках теории скачкообразной динамики
Sample — выборка
Sample size — размер выборки
Sample statistics — выборочная статистика
Sampling distribution — выборочное
распределение
Sanitary Reforms — санитарные реформы
Scales of measurement — шкалы
измерения, измерительные
шкалы
Scatter diagrams — диаграммы рассеяния
Semi-interquartile range — полуинтерквартильный размах
Significance testing — критерий статистической значимости
Simple / multiple correlation — простая / множественная корреляция
Skewed distributions — асимметричные распределения
Skewness — асимметрия, коэффициент асимметрии
Small / large samples — малые /
большие выборки
Spearman rho — коэффициент «ро»
Спирмена
Species — вид (в теории Дарвина)
Spurious correlation — ложная (кажущаяся) корреляция

175

Stabilizing selection — стабилизирующий отбор
Stable / unstable conditions — устойчивые / неустойчивые состояния,
стабильные / нестабильные
режимы
Standard deviation — среднеквадратическое отклонение, стандартное
отклонение
Standardized frequency
distributions — нормированное распределение частот
(частостей), плотность нормированного распределения,
унифицированное частотное
распределение
Statistical distribution — статистическое распределение
Statistical variation — статистическая
изменчивость
Statistical control — статистический
контроль
Statistical data — статистическое
данные
Statistical measures of variation — статистические характеристики (меры)
изменчивости
Statistical quality control tests — статистический критерий контроля
качества
Stratified sampling — расслоенная
(типологическая) выборка
Student’s t-distribution — t-распределение Стьюдента (Госсета)
Subjective approach — субъективный
подход (к вероятности)
Systematic sampling — систематическая выборка
t-distribution — t-распределение
(Стьюдента)
Tetrachoric correlation coefficient —
тетрахорический коэффициент
корреляции
Theory of errors — теория ошибок
Triserial correlation — трисериальная
(трехрядная) корреляция
Variables — переменные
Variance — дисперсия
Variation — изменчивость, вариация
Vital statistics — демографическая
статистика
Wilcoxon signed-rank test — критерий
знаковых рангов Уилкоксона
Yule’s Q-statistic — Q-статистика
Дж. У. Юла

Z-ratio (test) — z-соотношение Госсета (т. е. Стьюдента)

Издание для дополнительного образования
БИЗНЕС В КОМИКСАХ

Магнелло Эйлин, Ван Лоон Борин

СТАТИСТИКА В КОМИКСАХ
Руководитель отдела О. Усольцева. Ответственный редактор Л. Ивахненко
Выпускающий редактор К. Ананьева. Научный редактор П. Клюкин
Художественный редактор В. Брагина. Технический редактор М. Печковская
Компьютерная верстка С. Пяташ. Корректор М. Козлова

ООО «Издательство «Эксмо»
123308, Москва, ул. Зорге, д. 1. Тел.: 8 (495) 411-68-86.
Home page: www.eksmo.ru E-mail: info@eksmo.ru
_ндіруші: «ЭКСМО» АjБ Баспасы, 123308, Мqскеу, Ресей, Зорге кvшесі, 1 {й.
Тел.: 8 (495) 411-68-86.
Home page: www.eksmo.ru E-mail: info@eksmo.ru.
Тауар белгісі: «Эксмо»
Интернет-магазин : www.book24.kz
Интернет-д#кен : www.book24.kz
Импортёр в Республику Казахстан ТОО «РДЦ-Алматы».
jаза~стан Республикасындаы импорттаушы «РДЦ-Алматы» ЖШС.
Дистрибьютор и представитель по приему претензий на продукцию,
в Республике Казахстан: ТОО «РДЦ-Алматы»
jаза~стан Республикасында дистрибьютор жqне vнім бойынша арыз-талаптарды
~абылдаушыны‚ vкілі «РДЦ-Алматы» ЖШС,
Алматы ~., Домбровский кvш., 3«а», литер Б, офис 1.
Тел.: 8 (727) 251-59-90/91/92; E-mail: RDC-Almaty@eksmo.kz
_німні‚ жарамдылы~ мерзімі шектелмеген.
Сертификация туралы а~парат сайтта: www.eksmo.ru/certification
Сведения о подтверждении соответствия издания согласно законодательству РФ
о техническом регулировании можно получить на сайте Издательства «Эксмо»
www.eksmo.ru/certification
_ндірген мемлекет: Ресей. Сертификация ~арастырылмаан

Подписано в печать 24.05.2018.
Формат 70x1001/16. Гарнитура «SansRoundedLight».
Печать офсетная. Усл. печ. л. 14,26.
Тираж
экз. Заказ