Разберись в Data Science — страница 6 из 19

Готовьтесь мыслить статистически

«Статистическим называется особый стиль мышления, который сочетает в себе элементы детективной работы и скептицизма, а также предполагает использование альтернативных подходов к решению проблемы»[13]

– Фрэнк Харрелл, статистик и профессор

Эта глава научит вас критически воспринимать и осмыслять данные, с которыми вы сталкиваетесь на рабочем месте и в повседневной жизни. Она закладывает основу для понимания остальной части книги, и если какое-либо из описанных далее понятий окажется для вас новым, то вскоре вы, вероятно, обнаружите, что смотрите новости или читаете научно-популярные статьи сквозь новый статистический объектив.

Прежде чем мы начнем, стоит сделать два важных замечания.

Во-первых, в этой главе мы коснемся лишь поверхности. Ее чтение не заменит семестр изучения статистики и не позволит разобраться во всех аспектах процесса «мышления», как это позволяет сделать уже ставшая классической книга «Думай медленно… решай быстро»[14]. Но мы все-таки введем несколько понятий, чтобы заложить основы для освоения статистического образа мышления, насколько это возможно.

Во-вторых, существует риск того, что при чтении следующих нескольких глав у вас сформируется довольно циничное отношение к данным. Вы можете вскинуть руки и заявить, что вся эта статистическая чепуха скрывает правду под сложными уравнениями и цифрами и начать воспринимать в штыки любые результаты анализа, попадающиеся вам на глаза. А может быть, вы начнете бросаться помидорами в каждую прочитанную статью только потому, что вы узнали несколько статистических приемов и сомневаетесь в компетентности авторов.

Пожалуйста, воздержитесь от этого. Мы хотим, чтобы вы не отвергали предложенную вам информацию, а ставили ее под сомнение, вникали в ее смысл, осознавали имеющиеся ограничения – и, возможно, даже ее ценность.

Задавайте вопросы

Основной принцип статистического мышления – «задавать вопросы».

Многие из нас делают это в повседневной жизни. Мы предполагаем, что вы как читатель книги о работе с данными не воспринимаете всерьез громкие заявления рекламодателей («Похудей на 5 килограммов за месяц!» или «Эти акции скоро будут стоить как акции Amazon!») и странные сообщения в социальных сетях. Итак, эта мышца у вас уже натренирована. Когда вы только наблюдаете со стороны, разбирать очевидную ложь может быть очень весело.

Однако все становится гораздо сложнее, когда заявления и данные касаются нас лично. Это демонстрируют любые политические выборы. Попытайтесь честно ответить себе на вопрос о том, насколько быстро утверждения или цифры, озвучиваемые представителями другой политической партии, начинают вызывать у вас подозрения[15]. Какие мысли приходят вам на ум? «У них плохие источники. Мои источники хорошие. Их информация ложная. Моя информация верна. Они просто не понимают, что происходит».

Совершенно очевидно, что эта дискуссия может очень быстро превратиться в философский спор. Мы не стремимся разжигать политические дебаты или углубляться в те факторы, которые определяют нашу личную и политическую идеологию. Мы лишь хотим подчеркнуть тот факт, что человеку трудно подвергать сомнению то, что затрагивает сам процесс его мышления и рассуждения.

А теперь подумайте об информации, с которой вы сталкиваетесь на рабочем месте. Действительно ли вы способны скептически воспринимать содержимое электронных таблиц и презентаций PowerPoint, влияющее на успех вашей компании, результативность вашей работы и, возможно, даже на размер вашей премии? Наши наблюдения говорят о том, что зачастую это не так. В зале заседаний совета директоров цифры воспринимаются как неопровержимые факты, как истина, написанная черными чернилами и округленная до ближайшего десятичного знака.

Почему? Вероятно, это связано с тем, что у вас нет времени задавать вопросы или собирать дополнительную информацию. У вас есть ограниченное количество данных, на основе которых вы принимаете решения и на которые в случае необходимости можете списать неудачу. В условиях подобных ограничений скептицизм отключается почти рефлекторно. Еще одна причина может заключаться в том, что даже если вы понимаете связанные с данными проблемы, это не всегда можно сказать о вашем начальнике. Цепная реакция запускается тогда, когда все полагают, что остальные звенья управленческой цепочки принимают предоставляемые им цифры за чистую монету. И это предположение распространяется на всех, включая тех из нас, кто работает с электронной таблицей. Руководство не будет подвергать информацию сомнению, поэтому мы будем действовать так, будто она правдива.

Главные по данным смогут противостоять этой тенденции, если поймут суть вариации.

Комментарий по поводу «статистического мышления»

В понятие «статистическое мышление» мы вкладываем смысл из цитаты, приведенной в начале данной главы. Вы можете называть это вероятностным мышлением, статистической грамотностью или математическим мышлением. Вне зависимости от того, какую фразу вы предпочитаете, все эти понятия связаны с оценкой данных или доказательств.

Некоторые могут задаться вопросом о том, чем обусловлена важность этого стиля мышления. В конце концов, и бизнес, и жизнь в целом до сих пор обходились без него. Так почему сейчас? Почему это должно волновать главных по данным?

Ответ на эти вопросы можно найти в статье под названием «Data Science: What the Educated Citizen Needs to Know» («Наука о данных: что нужно знать образованному гражданину»), написанной гарвардским экономистом и врачом Аланом Гарбером:[16]


Преимущества использования науки о данных реальны и как никогда заметны и важны. Рост точности прогнозов сделает продукты этой науки более ценными и повысит интерес к ней. Однако ее успехи также могут порождать самоуспокоенность и заставлять нас закрывать глаза на ее недостатки. Специалисты будущего должны осознавать не только то, как наука о данных помогает им в работе, но и то, где и когда она оказывается бесполезной… Более глубокое освоение вероятностного мышления и оценки фактов – это тот навык, который пригодится всем.

Во всем есть вариации

Результаты наблюдений различаются между собой, и это вряд ли может кого-то удивить.

Цены на фондовом рынке колеблются ежедневно, результаты политических опросов меняются в зависимости от недели (и от того, кто именно проводит эти опросы), цены на бензин то растут, то снижаются, а ваше кровяное давление резко повышается, когда вы видите врача (при этом на медсестру вы так не реагируете). Даже ваши ежедневные поездки на работу, если разбить их на части и измерить с точностью до секунды, каждый день будут немного отличаться в зависимости от загруженности дорог, погоды, необходимости подвозить детей до школы или останавливаться, чтобы выпить кофе. Вариации есть во всем. Насколько вам комфортно от этой мысли?

Вероятно, вы давно приняли или, по крайней мере, смирились с вариациями в своей повседневной жизни, а, возможно, они вам даже нравятся. (Ну, за исключением колебаний фондового рынка.) Однако в целом мы понимаем, что некоторые вещи меняются по причинам, которые мы не всегда можем объяснить. Когда дело доходит до таких вещей, как накачка шин, заправка бензобака или оплата счетов за электричество, мы готовы мириться с постоянным изменением цифр при условии, что они имеют для нас интуитивно понятный смысл. Но, как было сказано в предыдущем разделе, нам гораздо сложнее относиться столь же беспристрастно к данным, затрагивающим нашу карьеру или бизнес.

Объем продаж компаний колеблется ежедневно, еженедельно, ежемесячно и ежегодно. Результаты опроса на тему удовлетворенности клиентов могут сильно различаться в разные дни. Если мы признаем реальность вариаций в нашей жизни, нам не нужно объяснять каждый пик и каждую впадину на графике. Однако именно к этому стремится любой бизнес. «Что делалось иначе в течение недели высоких продаж? – спрашивает руководство. – Давайте повторим все хорошее и устраним плохое». Вариации заставляют людей чувствовать себя беспомощными в отношении тех самых вещей, за знание которых им платят деньги и на которые они должны оказывать влияние.

Вероятно, когда дело касается бизнеса, вариации вызывают у нас гораздо больше дискомфорта, чем нам хотелось бы думать.

Существуют два типа вариаций. Один из них связан со способом сбора данных или проведения измерений и называется вариацией измерений. Второй тип связан со случайностью, лежащей в основе самого процесса, и называется случайной вариацией. На первый взгляд разница между ними может показаться незначительной, однако именно здесь проявляется важность статистического мышления. Принимаются ли решения в ответ на случайные вариации, которые невозможно контролировать? Или имеющаяся вариация отражает какой-то основополагающий процесс, который можно контролировать при условии его правильного выявления? Все мы надеемся на последнее.

Проще говоря, вариации порождают неопределенность.

Давайте рассмотрим один гипотетический сценарий и один исторический пример таких вариаций.

Сценарий: Клиентское восприятие (продолжение)[17]

Вы – менеджер розничного магазина, и ваше руководство внимательно отслеживает данные об удовлетворенности ваших клиентов, которые собираются, когда те звонят по номеру 1–800… указанному в нижней части квитанции. В ходе опроса клиентам предлагается оценить свою удовлетворенность по шкале от 1 до 10, где 10 означает «полностью удовлетворен». (Опрос включает ряд дополнительных вопросов, но первый – самый важный.)

При этом руководство устраивают только оценки 9 и 10. Оценка 8 для него равнозначна 0. Данные собираются еженедельно и отправляются лично вам и в корпоративный офис в файле PDF с красочными графиками, в котором слишком много страниц для представленной в нем информации. Тем не менее эти значения влияют на размер вашей премии и на размер премии вашего начальника, поэтому каждую неделю вы нервно и одержимо подсчитываете среднюю оценку удовлетворенности клиентов, надеясь, что вам удастся достичь показателя в 85 %.

Здесь нам следует остановиться и поговорить об одном из источников вариаций – о способе измерения результатов опроса. Общеизвестно, что оценить что-либо по шкале от 1 до 10 весьма проблематично. Оценка 10, выставленная одним человеком («У них не было того, что я искал, но сотрудник помог мне найти замену!»), равнозначна оценке 5, выставленной другим («У них не было того, что я искал! Сотруднику пришлось помочь мне найти замену»). Мы проигнорируем другие потенциальные источники вариаций, такие как грубость сотрудника, переполненный магазин, экономический спад, заставляющий всех нервничать, то, что покупателю пришлось отправиться за покупками вместе с детьми и так далее.

Мы вовсе не предлагаем отказываться от таких опросов. Мы лишь хотим показать, что сам способ измерения данных является источником вариаций, часто упускаемых из виду. Из-за игнорирования вариаций может показаться, что отклонения от наших ожиданий отражают некачественное обслуживание, а не те различия, которые присущи самому вопросу. И все же компании продолжают гнаться за высокими целевыми показателями (в данном случае это оценки 9 и 10), не понимая, что главная причина вариации – выбранный способ измерения.

Вот как это может развернуться. Предположим, 50 человек оставляют отзывы каждый день на протяжении 52 недель. Это значит 350 опросов в неделю или 18 200 в год. Может показаться, что такое количество участников позволяет получить хорошее представление о клиентском восприятии. В конце каждой недели происходит подсчет результатов: руководство складывает все оценки 9 и 10, делит полученную сумму на общее количество опросов за неделю (350) и наносит результаты на график, показанный на рис. 3.1. Если показатель превышает отметку 85 %, вас одобрительно похлопывают по спине, а если нет, то вы покрываетесь холодным потом.

Каждый понедельник вы получаете отчет и звоните в компанию, чтобы обсудить результаты. Представьте, какой стресс вызывают эти разговоры на 5–9 неделях, когда результаты оказались чуть ниже порогового значения. На 10-й неделе вам наконец удается превысить пороговое значение (несомненно, благодаря мотивации со стороны вашего начальника), но наступает 11-я неделя, и вы достигаете нового минимума. И так происходит снова и снова.

Однако то, что вы видите на рис. 3.1 – чистая случайность. Мы сгенерировали 18 200 случайных чисел, которые были равны 8, 9 или 10, чтобы симулировать результаты опроса об удовлетворенности клиентов, и перетасовали их, как колоду карт[18]. Каждую «неделю» мы получали 350 оценок и рассчитывали на их основе значение метрики. Средний процент оценок 9 и 10 в наборе данных составил 85,3 % (очень близко к истинному значению в 85 %), что соответствовало корпоративному стандарту, но каждую неделю отклонялось от этого порогового значения просто из-за случайных вариаций.


Рис. 3.1. Результаты еженедельного опроса клиентов: процент положительных отзывов. Горизонтальная линия на уровне 85 % соответствует целевому показателю


Из-за того, что никто не мыслил статистически, вы, ваш начальник и руководство компании старались добиться роста произвольного показателя, значение которого в принципе не зависело от чьих-либо действий.

Подобное стремление управлять метриками, не имея четкого статистического обоснования того, что они означают, мы называем иллюзией квантификации.

Сталкиваетесь ли вы с такой иллюзией на рабочем месте?

Анализ реальной ситуации: показатели заболеваемости раком почки

Самые высокие показатели заболеваемости раком почки в США, измеряемые как число случаев на 100 000 человек, наблюдаются в сельских округах, разбросанных по Среднему Западу, Южному и Западному регионам страны.

Остановитесь на мгновение и подумайте, чем это обусловлено.

Вы можете подумать, что жители сельской местности не имеют доступа к качественному медицинскому обслуживанию. Или, может быть, это результат нездорового образа жизни, диеты с высоким содержанием мяса, соли и жира или злоупотребления алкоголем. На самом деле строить предположения на основе фактов вполне естественно. Вы уже наверняка представляете, как исследователи начинают разрабатывать меры, необходимые для решения этой проблемы.

Однако есть еще один факт: самые низкие показатели заболеваемости раком почки в Соединенных Штатах также отмечаются в сельских округах, находящихся на Среднем Западе, а также в Южном и Западном регионах страны, которые часто соседствуют с округами с самыми высокими показателями заболеваемости[19].

Как такое может быть? Как в двух городах с похожей демографией могут наблюдаться столь разные результаты? Любая причина, которую вы могли бы предложить для объяснения высокого уровня заболеваемости раком почки в сельских округах, наверняка (в некоторой степени) применима и к соседним округам. Значит, дело в чем-то еще.

Возьмем два соседних сельских округа на Среднем Западе, округ А и округ Б, и предположим, что в каждом из них проживает всего 1000 жителей. Если в округе А отсутствуют случаи заболевания, то соответствующий уровень будет равен 0, а значит, этот округ будет относиться к категории с самым низким уровнем заболеваемости. Но если в округе Б есть хотя бы один случай заболевания раком почки, то соответствующий уровень там будет составлять 100 случаев на 100 000 жителей, что является самым высоким показателем в стране. Именно низкая численность населения в подобных округах обусловливает вариацию, которая одновременно приводит к самым высоким и самым низким показателям заболеваемости. И наоборот, один дополнительный случай заболевания в округе Нью-Йорк (в который входит Манхэттен) с населением более 1,5 миллиона человек вряд ли может повлиять на этот показатель. Увеличение количества случаев с 75 до 76 изменило бы число случаев на 100 000 человек с 5 на 5,07.


Рис. 3.2. График из статьи в журнале American Scientist


Все эти результаты реальны и взяты из статьи в журнале American Scientist под названием «The Most Dangerous Equation» («Самое опасное уравнение»)[20]. Результаты измерения уровня заболеваемости в разных округах США показаны на рис. 3.2. Малонаселенные округа в левой части графика демонстрируют гораздо более высокую вариацию уровня заболеваемости раком – от 0 до 20 (самый высокий показатель в стране). По мере движения слева направо с ростом численности населения вариация уменьшается, что придает графику треугольную форму. В правой части вариация совсем небольшая. Это значит, что в густонаселенных округах уровень заболеваемости стабилизируется у отметки 5 случаев на 100 000 человек и практически не меняется при выявлении дополнительных случаев.

В этой же статье приводятся и другие примеры того, как небольшие числа приводят к большой вариации. Например, были бы вы удивлены, узнав о том, что маленькие школы демонстрируют как лучшие, так и худшие результаты тестов? Один или два ученика, провалившие экзамен, могут очень сильно повлиять на общий процент. Экстремальные результаты часто обусловливаются именно небольшими числами.

Вероятности и статистика

В нескольких предыдущих разделах мы говорили о вариации и о том, что она – источник неопределенности для многих бизнесов. Однако неопределенностью можно управлять, и именно здесь в игру вступают вероятность и статистика.

При описании математики, лежащей в основе результатов, мы часто используем термины «вероятность» и «статистика» как взаимозаменяемые. Давайте немного глубже разберемся в этих понятиях, чтобы по-настоящему осознать разницу между ними.

Представьте большой мешок со стеклянными шариками. Вы не знаете, какого они цвета. Вы не знаете ни их формы, ни размера. Вы даже не знаете, сколько их. Вы опускаете руку в мешок и вслепую берете горсть шариков.

Давайте остановимся на мгновение. У вас есть мешок, в который вы не заглядывали, и горсть стеклянных шариков в руке, которые вы никогда не видели. У вас нет никакой информации о том, что находится у вас в руке или в мешке.

И вот в чем разница. Теория вероятности позволяет вам угадать, что находится у вас в руке, если вам точно известно содержимое мешка. А статистика позволяет вам узнать о содержимом мешка на основании того, что оказалось у вас в руке.

Теория вероятности позволяет двигаться от общего к частному, а статистика – от частного к общему. Надеемся, так понятнее.

А теперь давайте рассмотрим два примера из реальной жизни.


– В основе работы казино Лас-Вегаса лежит вероятность. Каждый раз, когда вы играете в азартные игры, вы вытаскиваете из принадлежащего казино мешка шарики, которые являются либо выигрышами, либо проигрышами. Количество выигрышных шариков в этом мешке достаточно ровно для того, чтобы вы не утратили интерес к игре. Владельцы казино хорошо понимают суть вариации; более того, они ее коммерциализировали, оптимизировав выигрыши и проигрыши, чтобы поддерживать в вас определенный уровень интереса и возбуждения. Однако владельцы точно знают, что в долгосрочной перспективе казино окажется в выигрыше: именно они создали мешок, из которого игроки достают шарики, поэтому они точно знают, что внутри. Когда вы делаете ставку, кладете фишку на стол или дергаете за рычаг игрового автомата, казино точно знает вероятность вашего выигрыша. Если вы подумаете о том, каким количеством данных располагает казино, вы поймете, что они буквально живут в мире вариаций и при этом имеют четкое представление о возможных результатах.

– В основе политических опросов лежит статистика. В случае с казино содержимое мешка с шариками тщательно продумано, и из него постоянно делается выборка. Что касается выборов, то политики не знают, что на самом деле находится внутри всего мешка, вплоть до дня голосования, когда все шарики (то есть голоса) вытаскиваются наружу[21]. Только тогда политики могут узнать, что в мешке, и достаточно ли в нем выигрышных для них шариков. До выборов политики и политические партии имеют доступ лишь к небольшому набору случайных шариков (результатов опросов), и за этот доступ они платят огромные деньги. На основании анализа результатов опросов они делают выводы о закономерностях распределения шариков внутри мешка и соответственно корректируют свои предвыборные кампании. Поскольку их информация является неполной (и поскольку они часто допускают предвзятость и ошибки), они не всегда правильно ее понимают. Но когда им это удается, полученный результат определяет разницу между их победой и поражением на выборах.


Некоторые важные концепции теории вероятности и статистики мы кратко рассмотрим в следующих разделах.

Вероятность и интуиция

Ранее в этой главе мы говорили о том, что случайная вариация не поддается контролю. Однако ее можно измерить, и теория вероятности дает нам для этого инструменты.

Иногда вероятности для нас вполне понятны. Если вы бросили честный кубик, то вы знаете, какова вероятность выпадения того или иного числа (1 из 6) или буквы (1 из 4). При игре в простые азартные игры вероятности кажутся нам интуитивно понятными. Однако это интуитивное понимание зачастую скрывает сложность, лежащую в основе этих вероятностей. Например, рекламные ролики часто апеллируют к простым вероятностям, сводя их к тому, что кажется нам интуитивно понятным.


Табл. 3.1. Вероятность того, что стоматологи согласятся с рекламным утверждением


Вы наверняка видели рекламные ролики, в которых говорилось что-то вроде: «4 из 5 стоматологов согласны» с рекламным утверждением X (X может быть чем угодно, начиная с того, что жевательная резинка снижает риск развития кариеса, и заканчивая тем, что пищевая сода отбеливает зубы).

Теперь предположим, что перед вами сидят пять стоматологов. Если вы знаете, что 80 % всех стоматологов согласны с утверждением Х, насколько вероятно, что с ним согласны ровно четыре из пяти сидящих перед вами стоматологов?[22] 100 %, 90 % или 80 %?

На самом деле ответ равен 41 %.

Интуитивно он может показаться слишком маленьким, но он правильный. Давайте разберемся, почему. Таблица 3.1 отражает одну из комбинаций ответов пяти стоматологов на вопрос о том, согласны ли они с утверждением X.


Вероятность такой комбинации = 0,8 × 0,8 × 0,8 × 0,8 × 0,2 = 0,08192


Или, если кратко,

p = 0,84 × 0,2 = 0,08192


Однако ответ «Нет», показанный в табл. 3.2, может быть дан пятью разными стоматологами, поэтому существуют пять комбинаций ответов.

Таким образом, мы должны умножить исходную вероятность на пять: 0,08192 × 5 = 0,4096, что примерно равно 41 %.

Мы знаем, что с утверждением X соглашаются в среднем четверо из пяти стоматологов, но это не гарантирует того, что такой результат будет наблюдаться в каждой выборке, состоящей из пяти стоматологов. Вернемся к нашей аналогии с шариками. Если 80 % шариков в мешке соответствует ответу «да», а 20 % – ответу «нет», то иногда все пять шариков, оказавшихся у вас в руке, будут соответствовать положительному ответу, а в очень редких случаях – отрицательному. (Так проявляется вариация.)

Мы привели этот пример, чтобы еще раз подчеркнуть то, что люди часто недооценивают значение вариации, особенно когда имеют дело с небольшими числами. Их ожидания, основанные на интуиции, редко совпадают с реальными результатами расчета вероятностей. Недооценка вариации заставляет людей переоценивать свою уверенность в тех случаях, когда они имеют дело с небольшими значениями. Эта «склонность преувеличивать вероятность того, что малая выборка точно отражает свойства генеральной совокупности»[23] получила название «закона малых чисел».

Мыслить статистически, как и подобает главному по данным, значит помнить о том, что интуиция может сыграть с нами злую шутку. Мы рассмотрим еще несколько подобных примеров и заблуждений в следующих главах.


Табл. 3.2. Возможные комбинации из пяти стоматологов, среди которых четверо согласны с рекламным утверждением

Открытия с помощью статистики

Статистика часто делится на описательную и индуктивную. Скорее всего, вы уже знакомы с описательной статистикой, даже если не используете это выражение. Описательная статистика – это числа, обобщающие некие данные, значения, которые вы видите в газете или на проекционном экране в офисе. Средние объемы продаж за последний квартал, рост по сравнению с прошлым годом, уровень безработицы и так далее. Такие показатели, как среднее значение, медиана, размах, дисперсия и стандартное отклонение, относятся к описательной статистике, и для их расчета требуются специальные формулы, которые во множестве встречаются в соответствующих учебниках.

Описательная статистика предполагает преднамеренное упрощение данных и позволяет, например, свести всю электронную таблицу с данными о продажах компании в несколько ключевых показателей. В аналогии с шариками описательная статистика предполагает простое суммирование шариков, оказавшихся в вашей руке.

Несмотря на полезность этой операции, мы редко на ней останавливаемся. Мы хотим сделать дополнительный шаг и понять, как мы можем сделать предположение о содержимом мешка на основании информации о шариках, оказавшихся в нашей руке. В этом заключается суть индуктивной статистики, которая позволяет «перейти от мира к данным, а затем от данных обратно к миру»[24]. (Подробнее об этом мы поговорим в главе 7.)

А пока давайте рассмотрим пример. Представьте, как бы вы отреагировали на заголовок «75 % американцев верят в существование НЛО!», зная о том, что этот результат был получен в ходе опроса 20 посетителей Международного музея и исследовательского центра НЛО в Розуэлле, штат Нью-Мексико. Как вы думаете, можно ли на основе подобного исследования сделать вывод об истинном проценте американцев, верящих в НЛО?

Главный по данным отнесся бы к такому результату весьма скептически, поскольку в данном случае показатель 75 % основан на:


– Предвзятой выборке. Люди, посещающие Розуэлл, с гораздо большей вероятностью верят в НЛО, чем среднестатистические жители США.

– Небольшой выборке. Вы уже знаете, какая значительная вариация может наблюдаться в выборке небольших размеров. Нет смысла делать выводы о том, что думают миллионы, на основе мнений 20 человек.

– Основополагающих допущениях. В заголовке говорится о том, что «американцы» верят в НЛО просто потому, что опрос был проведен в Америке. Однако данный музей – международная достопримечательность. Вы не можете быть уверены в том, что участники опроса были американцами.


Такие понятия, как предвзятость и размер выборки, – инструменты статистического вывода, помогающие нам понять, заслуживают ли доверия те статистические данные, которые мы видим или получаем в результате вычисления. Они – важная часть нашего инструментария. Основополагающие допущения также важно учитывать. Если вы хотите мыслить как главный по данным, не стоит принимать за чистую монету допущения, лежащие в основе высказанного вывода.

Сталкиваясь с какими-либо данными в своей работе, старайтесь не принимать предложенную информацию на веру и не прислушиваться к собственной интуиции.

Думайте статистически. Задавайте вопросы. Именно это делают главные по данным. В следующих главах вы найдете вопросы, которые помогут вам освоить статистический образ мышления.

Ресурсы для освоения статистического образа мышления

Ранее в этой главе мы сказали о том, что в ходе дальнейшего обсуждения статистического мышления мы собираемся лишь коснуться поверхности. К счастью, есть несколько отличных книг, в которых эта тема рассматривается более подробно. Больше всего нам нравятся следующие:


• «Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists», Joel Best (University of California Press, 2001);

• «Как не ошибаться. Сила математического мышления», Джордан Элленберг (Издательство: Манн, Иванов и Фербер, 2021);

• «Как лгать при помощи статистики», Дарелл Хафф (Издательство: Альпина Паблишер, 2015);

• «Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022);

• «Proofiness: How You’re Being Fooled by the Numbers», Charles Seife (Penguin Books, 1994);

• «(Не)совершенная случайность. Как случай управляет нашей жизнью», Леонард Млодинов (Издательство: Livebook, 2021);

• «Сигнал и Шум. Почему одни прогнозы сбываются, а другие – нет», Нейт Сильвер (Издательство: КоЛибри, 2016);

• «Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).

Подведение итогов

В этой главе мы заложили основы для освоения статистического образа мышления, от которых будем отталкиваться в следующих главах книги.

В частности, мы поговорили о важности вариаций и понимания их существования в контексте измеряемых нами вещей. Мы показали, что результаты опросов клиентов могут иметь широкий разброс не потому, что обслуживание было плохим (хотя и это возможно), а потому, что сам вопрос предрасполагает к даче совершенно разных ответов, которые до измерения могут характеризоваться как похожие.

Мы также поговорили о вероятности и статистике, которые помогают нам управлять вариациями, демонстрируя то, что некоторые из этих вариаций являются предсказуемыми, а некоторые не имеют значения в долгосрочной перспективе.

Теория вероятности позволяет нам двигаться от общего к частному, то есть делать выводы о небольшом фрагменте данных на основе знаний о совокупности информации. А статистика позволяет нам двигаться от частного к общему, то есть делать выводы о совокупности информации на основе доступных нам фрагментов. И теория вероятности, и статистика – инструменты, которые помогают нам узнать больше о полной картине, пока она остается для нас неясной. Наконец, мы поговорили об использовании знаний о теории вероятности и статистике для оттачивания навыка критического мышления.

Часть II