Разберись в Data Science — страница 9 из 19

Изучайте вероятности

«Представления многих людей о вероятности настолько скудны, что они допускают только [одно] из двух ее значений: 50 на 50 и 99 %, то есть абсолютную случайность и практически полную уверенность»

– Джон Аллен Паулос, математик и автор книги «Математическое невежество и его последствия»[46]

Давайте поговорим о вероятности – языке неопределенности – и вернемся к теме, рассмотрение которой мы начали в главе 3 «Готовьтесь мыслить статистически». Напомним, что во всем присутствует вариация. Вариация порождает неопределенность. А теория вероятности и статистика – это инструменты, помогающие нам управлять неопределенностью.

Тот краткий раздел, посвященный вероятности, закончился следующим напутствием: будьте внимательны и помните о том, что интуиция может сыграть с вами злую шутку.

Это справедливое утверждение, однако такие темы, как вероятность, заслуживают больше этого предупреждения. Полное ее понимание, если оно вообще возможно, требует прочтения огромного количества учебников, прослушивания длинных лекций и посвящения всей жизни исследованиям и дебатам. И даже это не гарантирует согласия экспертов относительно интерпретации и философии вероятности[47]. У вас, скорее всего, нет времени или желания вникать в подробности этого спора; у нас его тоже нет. Поэтому мы избавим вас от них и сосредоточим внимание на том, что поможет вам отточить интуицию и добиться успеха в своей работе.

Итак, цель этой главы – помочь вам углубиться в теорию вероятностей, освоить соответствующий язык и обозначения, а также познакомиться с инструментами и ловушками. К концу этой главы вы сможете думать и говорить о вероятностях на своем рабочем месте, даже если сами не занимаетесь расчетами, а также задавать сложные вопросы о представленных вам вероятностях. Готовность погрузиться в тему вероятности и неопределенности – важный шаг на пути становления главным по данным.

Попробуйте угадать

Для начала попробуйте выполнить мысленное упражнение.

Ваша компания, входящая в список Fortune 500, стала жертвой кибератаки: хакеры заразили вирусом 1 % всех портативных компьютеров. Доблестная IT-команда быстро разработала способ проверки ноутбука на предмет наличия на нем этого вируса. Это очень хороший, почти идеальный тест. Исследования IT-команды показали, что при наличии в ноутбуке вируса результат теста будет положительным в 99 % случаев. А при отсутствии вируса в 99 % случаев результат теста будет отрицательным.

При проверке вашего ноутбука на наличие вируса результат оказывается положительным. Какова вероятность того, что на вашем устройстве действительно есть вирус?

Подумайте над этим, прежде чем двигаться дальше.

Правильный ответ – 50 %. (Мы докажем это далее в этой главе.)

Удивлены? Это удивляет большинство людей.

Ответ не понятен интуитивно. Даже если вы знаете, что вероятность может сыграть с вами злую шутку, она все равно может вас подловить. Именно это больше всего раздражает в теории вероятности – любая проблема становится настоящей головоломкой. Однако не стоит расстраиваться, если вы не угадали правильный ответ. Настоящий тест заключался в том, задумались ли вы о своей неуверенности в ответе.

Далеко не все это делают. Большинство людей не понимают или не учитывают вероятности. Хотите доказательства? Люди по-прежнему покупают лотерейные билеты, стекаются в Лас-Вегас и приобретают расширенную гарантию на свои телевизоры. Они довольствуются своим прискорбным невежеством в отношении вероятности, особенно когда принимаемые ими решения связаны с потенциальной выгодой (игровые автоматы) или возможностью избежать проблем в будущем (гарантии на телевизоры). Эта глава даст вам четкое представление о вероятности, правилах ее определения и ошибочных представлениях.

Итак, начнем.

Правила игры

Теория вероятностей позволяет количественно оценить возможность наступления того или иного события.

Прежде чем мы погрузимся в математику, стоит отметить, что наш мозг запрограммирован на работу с вероятностями. В повседневной жизни мы постоянно используем вероятностные утверждения. Вы не можете точно знать, произойдет ли то или иное событие в вашей жизни, но вы знаете, что некоторые исходы более вероятны, чем другие. Например, в офисе вы можете услышать фразы наподобие:


– «Вполне вероятно, что они подпишут контракт!»

– «Существует небольшая вероятность того, что мы пропустим крайний срок, назначенный на следующий понедельник».

– «Вряд ли нам удастся достичь квартальных целей».

– «Тревор, как правило, опаздывает на совещания».

– «Согласно прогнозу погоды, сегодня, скорее всего, будет дождь. Давайте перенесем выездную встречу».


У двух людей могут быть разные представления о том, как часто происходит «весьма вероятное» или «вероятное» событие, а значит, обыденный язык здесь не поможет. Нам нужно использовать числа, данные и обозначения для количественной оценки вероятностных утверждений, чтобы наши заявления стали надежнее интуитивных догадок (даже если наша интуиция отличается высокой степенью надежности). Более того, нам нужно соблюдать определенные правила и логику вероятности.

Нотация

Как говорилось ранее, теория вероятностей позволяет количественно оценить возможность наступления того или иного события. Событием может быть любой исход – от простого (выпадение орла при подбрасывании монеты) до сложного («Дональд Трамп победит на выборах 2016 года»). Даже ребенок может оценить вероятность выпадения орла при подбрасывании монеты как 50 на 50, однако вся индустрия опросов общественного мнения не сумела предсказать результаты выборов 2016 года, несмотря на анализ терабайтов данных.

В этом кратком уроке мы рассмотрим простые случаи.

Вероятность принимает значения в диапазоне от 0 до 1 включительно, где 0 означает невозможность (выпадение 7 при бросании шестигранного кубика с цифрами 1–6), а 1 – абсолютную уверенность (выпадение числа меньшего 7 при бросании шестигранного кубика). Вероятность часто выражается в виде простой дроби (вероятность выпадения орла при подбрасывании монеты составляет 1/2) или в процентах (у вас есть 25 %-ный шанс выбрать карту пиковой масти из стандартной колоды игральных карт). Многие люди при описании вероятности используют числа, дроби и проценты взаимозаменяемо.

Для экономии места мы будем использовать сокращение и обозначать вероятность буквой P. Описания событий мы также будем сокращать. Например, фразу «Вероятность выпадения орла при подбрасывании честной монеты равна 1/2» можно кратко записать в виде P(М == О) = 1/2. Или, еще короче, P(О) = 1/2. Фактически весь предыдущий абзац можно показать в виде следующей таблицы.


Табл. 6.1. Сценарии, описанные с помощью сокращенной нотации

Использование «==» вместо «=»

Если вы уже проходили курс по теории вероятностей или статистике, используемые обозначения вам, скорее всего, знакомы. Однако для большей ясности мы добавили еще кое-что.

Обратите внимание: когда мы проверяем вероятность выпадения орла при подбрасывании монеты, мы пишем P(М == О) вместо P(М = О). Мы делаем это для того, чтобы провести различие между двумя наборами знаков равенства в нашем уравнении. С помощью двойного знака равенства (==) мы фактически проверяем результат подбрасывания монеты М.

С другой стороны, когда мы пишем P(М == О) = 1/2, единственный знак равенства в конце записи указывает на то, что результат P(М == О) равен 1/2.

Эта нотация соответствует синтаксису булевой логики, используемому во многих языках программирования.

Выражение P(К < 7) = 1 обозначает суммарную вероятность и говорит о том, что «Вероятность выпадения числа меньшего 7 при бросании шестигранного кубика равна 1». Этот результат получается путем сложения P(К == 1) + P(К == 2) + P(К == 3) + P(К == 4) + P(К == 5) + P(К == 6) = 6 × 1/6 = 1 (табл. 6.2). Сумма вероятностей всех исходов должна равняться единице.


Табл. 6.2. Суммарная вероятность выпадения числа меньшего 7 при бросании кубика

Условная вероятность и независимые события

Когда вероятность наступления одного события зависит от наступления другого, это называется условной вероятностью. Условная вероятность обозначается вертикальной чертой, |, которая читается как «при условии». Вот несколько примеров для большей ясности:


– Вероятность того, что Алекс опоздает на работу, составляет 5 %. P(А) = 5 %.

– Вероятность того, что Алекс опоздает на работу при условии, что у него спустит колесо (С), равна 100 %. P(А | С) = 100 %.

– Вероятность того, что Алекс опоздает на работу при условии, что на межштатной автомагистрали 75 будет пробка (П), составляет 50 %. P(A | П) = 50 %.


Как видите, вероятность наступления события сильно зависит от предшествующего ему события или событий.

Когда вероятность наступления одного события не зависит от наступления другого, эти события считаются независимыми. Например, условная вероятность выбора карты пиковой масти из колоды карт при условии выпадения орла при подбрасывании монеты P(П | О) равна вероятности выбора карты пиковой масти самого по себе, P(П). Короче говоря, P(П | О) = P(П), и точно так же P(О | П) = P(О), потому что между этими событиями нет никакой зависимости. Колоде карт все равно, что произошло с монетой, и наоборот.

Вероятность наступления множества событий

При моделировании вероятности наступления множества событий нотация и правила зависят от того, происходят ли они одновременно (наводнение и отключение электричества) или происходит только одно из них (или наводнение, или отключение электричества).

Одновременное наступление двух событий

Сначала поговорим о двух событиях, наступающих одновременно.


P(выпадения орла при подбрасывании монеты) = P(О) = 1/2.

P(выбора карты пиковой масти из колоды карт) = P(П) = 13/52 = 1/4.


Вероятность того, что произойдет и то и другое, то есть выпадение орла и выбор карты пиковой масти, можно обозначить как P(О, П). При этом запятая означает «и».

В этом случае события являются независимыми. Одно событие не влияет на другое. Когда события являются независимыми, вероятности их наступления можно перемножить: P(О, П) = P(О) × P(П) = 1/2 × 1/4 = 1/8 = 12,5 %. Тут все довольно просто.

Теперь рассмотрим чуть более сложный пример. Как вы помните, вероятность того, что Алекс опоздает на работу, составляет 5 %, P(A) = 5 %. А вероятность того, что Джордан опоздает на работу, составляет 10 %, Р(Д) = 10 %. Что вы можете сказать о вероятности того, что мы оба опоздаем на работу, P(A, Д)? Уточним, что мы живем в разных штатах, Алекс работает в офисе с 9 до 5, а Джордан – фрилансер[48].

Первое предположение: P(A, Д) = P(A) × P(Д) = 5 % × 10 % = 0,5 %. Вероятность довольно низкая, но действительно ли эти два события независимы друг от друга? Поначалу может показаться, что так и есть, поскольку мы живем и работаем в разных местах. И все же эти события не являются независимыми. В конце концов, мы вместе пишем книгу. Мы оба могли опоздать на работу, потому что накануне вечером допоздна спорили о лучшем способе объяснения концепции вероятности. Таким образом, вероятность опоздания Алекса зависит от опоздания Джордана. Поэтому здесь речь идет об условной вероятности. Предположим, что вероятность опоздания Алекса при условии опоздания Джордана составляет 20 %, P(A | Д) = 20 %.

Это дает нам истинную формулу вероятности одновременного наступления этих двух событий, называемую правилом умножения. Ее можно записать следующим образом: P(A, Д) = P(Д) × P(A | Д) = 10 % × 20 % = 2 %. Это значит, что вероятность одновременного опоздания Алекса и Джордана равна вероятности опоздания Джордана, умноженной на вероятность того, что Алекс опоздает при условии опоздания Джордана.

Итоговая вероятность, 2 %, никогда не может превышать наименьшую из отдельных вероятностей, P(A) и P(Д), которая в данном случае составляет 5 % для Алекса. Это объясняется тем, что у Алекса есть 5 %-ный шанс опоздать во всех возможных сценариях, включая те, в которых опаздывает Джордан.

Это подводит нас к важному правилу теории вероятностей: вероятность одновременного наступления любых двух событий не может превышать вероятность наступления каждого из них в отдельности.

На рис. 6.1 это правило проиллюстрировано с помощью диаграммы Венна. Если представить вероятность в виде области пересечения или перекрытия кругов (событий), становится очевидно, что площадь области перекрытия кругов А и Д не может превышать площадь самого маленького круга.

Наступление одного или другого события

Что, если наступает одно или другое событие? Статистика и теория вероятностей учит нас тому, что все зависит от обстоятельств. Начните с предположения и корректируйте его, опираясь на имеющуюся информацию.

Когда два события не могут произойти одновременно, все сводится к простому сложению вероятностей. При бросании кубика не может одновременно выпасть 1 и 2, поэтому вероятность выпадения 1 или 2 равна P(К == 1 или К == 2) = P(К == 1) + P(К == 2) = 1/6 + 1/6 = 2/6 = 1/3.


Рис. 6.1. Диаграмма Венна, показывающая то, что вероятность одновременного наступления двух событий не может превышать вероятность наступления каждого из них в отдельности


Рассмотрим чуть более сложный пример с авторами-прогульщиками и вместо определения вероятности того, что на работу опоздают и Алекс, и Джордан, вычислим вероятность опоздания Алекса или Джордана, то есть P(А или Д).

Вам известно, что P(А) = 5 %, а P(Д) = 10 %. Первым разумным предположением может быть: P(А) + P(Д) = 15 %. За 100 дней Алекс опоздает 5 раз, а Джордан – 10. Если мы сложим эти значения, то получим 15 дней, что составляет 15 % от 100. Если бы события были взаимоисключающими и никогда не происходили одновременно, это предположение было бы корректным.

Однако помните о том, что мы оба можем опоздать (см. рис. 6.1.). Иногда мы опаздываем на работу друг из-за друга, то есть вероятность того, что опоздают и Алекс, и Джордан, P(А, Д), превышает 0. Мы не можем просто сложить обе вероятности, потому что при этом были бы дважды учтены дни, в которые мы оба опаздываем. Чтобы это компенсировать, мы должны вычесть вероятность того, что мы оба опоздаем на работу после ночного обсуждения книги, которая составляет P(А, Д) = 2 %. В итоге мы имеем вероятность опоздания 5 % для Алекса, 10 % для Джордана, минус 2 %, когда опаздывают оба: 5 + 10–2 = 13 и 13/100 = 13 %.

Отталкиваясь от этого, мы можем сформулировать правило сложения вероятностей для случая, когда наступает одно или другое событие: P(А или Д) = P(А) + P) – P(А, Д) = 5 % + 10 % – 2 % = 13 %.

Помните о пересечении

При вычислении вероятности наступления множества событий некоторые испытывают сложности с вычитанием пересекающейся области. Однако делать это необходимо, поскольку вероятность никогда не может превышать 1. Давайте снова обратимся к простому примеру с бросанием кубика. Вероятность выпадения числа, большего 2, равна 4/6. Вероятность выпадения нечетного числа составляет 3/6. Если вы хотите узнать вероятность наступления того или другого события, вы не можете просто сложить 4/6 + 3/6, потому что в итоге у вас получится 7/6 = 1 1/6, то есть число, превышающее единицу, что нарушает вышеупомянутое правило. Мы должны вычесть пересекающуюся область, включающую все случаи, когда при бросании кубика выпадает число, большее 2 и являющееся нечетным, то есть числа 3 и 5, вероятность выпадения которых составляет 2/6.


Постановка задачи:P(К > 2 или К нечетное) =

Правило сложения:P(К > 2) + P(К нечетное) – P(К > 2, К нечетное) =

Вероятности: 4/6 + 3/6–2/6

Ответ: 5/6


Выпадение числа 2 – это единственный случай, который не удовлетворяет ни одному из условий.

Вы наверняка уже устали от различных нотаций, игральных костей, монеток и опаздывающих на работу авторов. Чтобы вы могли отдохнуть от всего этого, мы предлагаем вам выполнить следующее мысленное упражнение.

Мысленное упражнение на определение вероятности

Сэм – замкнутый, но очень способный. Ему 29 лет. Он получил высшее экономическое образование в родной Калифорнии. В студенчестве он был одержим данными, работал волонтером в университетском статистическом консультационном центре и самостоятельно учился программировать на языке Python.


Что из этого более вероятно?

1. Сэм живет в Огайо.

2. Сэм живет в Огайо и работает дата-сайентистом.


Правильный ответ – № 1, хотя в описании нет и намека на то, что Сэм может жить в Огайо, не являясь при этом дата-сайентистом. Это вариация популярной задачи про Линду из книги «Думай медленно… решай быстро»[49], с которой у большинства людей возникают сложности. А какой ответ выбрали вы?

Ответ № 2? Возможно, потому, что мы рассказали вам о том, что Сэм занимался программированием и мог быть дата-сайентистом. Ответ № 2 кажется более вероятным именно потому, что в нем упоминается событие, связанное с прошлым Сэма. Однако он все же менее вероятен, чем ответ № 1. И вот почему.

В данном примере отсутствуют обозначения и числа, но он по-прежнему отражает важный урок из предыдущего раздела. Вероятность одновременного наступления любых двух событий не может превышать вероятность наступления каждого из них в отдельности. Чем больше «и» вы добавляете в то или иное утверждение, тем меньше будет итоговая вероятность. Для того чтобы Сэм был дата-сайентистом и жил в Огайо, он должен для начала просто жить в Огайо. Например, он мог бы жить в Огайо и работать актуарием.

Помните, что вероятность одновременного наступления двух событий определяется правилом умножения. Вероятность того, что Сэм живет в Огайо и работает дата-сайентистом (Д), можно обозначить как P(О, Д) = P(О) × P(Д | О). А поскольку вероятность никогда не превышает единицу, умножение P(О) – вероятности того, что Сэм живет в Огайо – на любую другую величину вероятности не может увеличить результирующее значение P(О) × P(Д | О). Таким образом, P(О, Д) ни при каких условиях не может превысить P(О), каким бы предпочтительным ни казался ответ № 2.

Все еще сложно? Вы могли прочитать ответ № 2 как условную вероятность: какова вероятность того, что Сэм живет в Огайо при условии, что он работает дата-сайентистом, P(O | Д)? Вероятность этого может превышать вероятность проживания Сэма в Огайо, P(O). Однако в данном случае разница между «и» и «при условии» имеет большое значение.

Рассмотрим более простой пример. Бейсбольная команда «Нью-Йорк Янкис» имеет преданных поклонников по всему миру. Предположим, что прямо сейчас проходит матч, который смотрят миллионы людей как вживую на стадионе, так и по телевизору. Теперь случайным образом выберите одного жителя планеты. Учитывая, что в мире живут миллиарды людей, крайне маловероятно, что вы выберете фаната «Янкис». Еще менее вероятен выбор фаната «Янкис», смотрящего игру на стадионе, потому что не все фанаты могут там присутствовать. Однако если бы у вас была возможность случайным образом выбрать человека, присутствующего на стадионе, все было бы иначе. Весьма вероятно, что он оказался бы фанатом «Янкис»[50].

Таким образом, вероятность того, что тот или иной человек – фанат «Янкис» и присутствует на игре, сильно отличается от вероятности того, что человек является фанатом «Янкис» при условии, что он присутствует на игре.

Дальнейшие шаги

После выполнения этого мысленного упражнения имеет смысл вспомнить о предупреждении, которое было сделано в начале этой главы: будьте внимательны и помните о том, что ваша интуиция может сыграть с вами злую шутку. Вероятности регулярно будут запутывать и сбивать вас с толку. Возможно, лучшее, что мы можем сделать для борьбы с этой проблемой, – это узнать о самых распространенных ловушках.

Теперь, когда вы познакомились с обозначениями и правилами теории вероятностей, пришло время научиться осознавать и критически осмыслять вероятности, с которыми вам предстоит столкнуться в ходе своей работы. Вот несколько советов, которые помогут вам не сбиться с пути:

– Будьте осторожны, делая предположения о независимости событий.

– Знайте, что все вероятности условны.

– Убедитесь в том, что вероятности имеют смысл.

Будьте осторожны, делая предположения о независимости событий

Если события не зависят друг от друга, вы можете перемножить вероятности их наступления. Например, вероятность выпадения двух орлов подряд при подбрасывании честной монеты составляет P(О) × P(О) = 1/2 × 1/2 = 1/4. Однако не все события являются независимыми, поэтому с осторожностью делайте соответствующее предположение при вычислении или анализе вероятностей.

Мы уже упоминали об этом в начале книги в связи с ипотечным кризисом 2008 года. Вероятность того, что человек перестанет платить ипотеку, не является независимой от вероятности того, что его сосед тоже перестанет ее платить, хотя финансисты с Уолл-стрит на протяжении многих лет думали иначе. И то и другое событие неразрывно связано с общим состоянием экономики и мира в целом.

Тем не менее допущение независимости событий, которые таковыми не являются, – весьма распространенная ошибка. Руководство вашей компании может допустить ее при принятии стратегических решений – и, как следствие, сильно недооценить вероятность одновременного наступления нескольких событий.

Представьте заседание совета директоров. Обсуждается вероятность того, что в будущем году компании удастся реализовать три интересных, но рискованных проекта: A, B, C. Осознавая потенциальные риски, руководители компании оценивают вероятность неудачи для каждого проекта как P(провала A) = 50 %, P(провала B) = 25 %, а P(провала C) = 10 %.

Кто-то берет калькулятор и перемножает вероятности: 50 % × 25 % × 10 % = 1,25 %. Руководители в восторге: вероятность того, что все три проекта потерпят неудачу, составляет всего 1,25 %. В конце концов, ставки высоки, так что всего один успешный проект способен окупить инвестиции, сделанные во все три. А поскольку суммарная вероятность должна быть равна 1, вероятность успеха хотя бы одного проекта составляет 1 минус вероятность провала всех проектов, или 1–0,0125 = 0,9875 = 98,75 %. «Ничего себе, – думают они, – вероятность общего успеха составляет почти 99 %!»

Увы, их расчеты неверны. Все три события зависят от общего успеха компании, который может быть подорван такими факторами, как корпоративный скандал, плохие квартальные результаты или какое-то более крупное событие, влияющее на мировую экономику, вроде пандемии COVID-19. События A, B и C зависят от нескольких факторов. Поэтому, когда руководители необоснованно допускают их независимость, они недооценивают вероятность того, что все три проекта потерпят неудачу в будущем году, а значит, переоценивают шансы на то, что по крайней мере один из них окажется успешным.

Если это кажется вам неважным, вспомните финансовый кризис 2008 года и последующую рецессию.

Не допускайте ошибку игрока

С другой стороны, некоторые события являются независимыми, но не воспринимаются таковыми. Это порождает другой вид риска, благодаря которому процветают казино. В данном случае люди переоценивают вероятность наступления того или иного события, основываясь на предшествующих событиях.

Если при подбрасывании честной монеты 10 раз подряд выпадет орел, то вероятность выпадения орла в результате следующего броска все равно будет составлять P(О) = 50 %. В случае с независимыми событиями вероятность наступления одного из них не увеличивается и не уменьшается в зависимости от предыдущих результатов. Однако игроки ошибочно полагают, что величина вероятности меняется – отсюда и название «ошибка игрока»[51].

Каждый последующий бросок кубика не зависит от результата предыдущего броска. То же самое касается игровых автоматов и рулетки. Тем не менее игроки пытаются отыскать закономерности в этих событиях. Они либо думают, что на игровом автомате «должен» выпасть выигрыш, потому что он уже давно не выбрасывал монеты, либо считают, что «горячие» игральные кости позволят им выигрывать и впредь.

Однако каждое последующее событие имеет ту же вероятность выигрыша, что и предыдущее. А поскольку речь идет о казино, то шансы не в вашу пользу. Однако, заметив последовательность редких событий, любители азартных игр делают большие ставки, думая, что настал их счастливый день. О, как же они ошибаются. Правда, казино может угостить их «бесплатным» завтраком[52].

Все вероятности являются условными

Все вероятности в некотором смысле условны. Вероятность выпадения орла при подбрасывании монеты P(О) равна 50 % при условии, что монета является честной. То же самое касается вероятности выпадения единицы при бросании кубика: P(К == 1) = 1/6. Вероятность успеха проекта по работе с данными зависит от коллективного разума группы аналитиков, правильности данных, сложности проблемы, отсутствия вирусов на компьютерах, риска закрытия компании из-за пандемии и так далее.

Также подумайте о том, как компании и люди оценивают успех и компетентность. Обычно это делается исходя из прошлых успехов. Компании нанимают консультанта с успешным послужным списком или адвоката, который выигрывает больше всего дел, а человек обращается к кардиохирургу, чьи пациенты умирают в ходе операции реже всего. Допустим, консультант зарабатывает деньги для своих клиентов в 90 % случаев, адвокат выигрывает 80 % дел, дошедших до суда, а уровень смертности пациентов кардиохирурга составляет всего 2 %.

Однако они могут влиять на эти вероятности. Консультант, юрист и хирург могут решить, браться за дело или нет. Они хорошо представляют свои шансы на успех, и если эти шансы кажутся им слишком небольшими, они могут отказаться. Вероятность успеха каждого из них зависит от выбора проектов с наибольшей вероятностью успеха и избегания тех, которые могут привести к ухудшению их показателей[53].

Вы должны учитывать все факторы, влияющие на степени вероятности, с которыми сталкиваетесь.

Не меняйте зависимости местами

Еще одна ловушка состоит в склонности предполагать то, что P(A | B) = P(B | A) для двух событий A и B. Обратите внимание на то, как зависимости поменялись местами: в одном случае A зависит от B, в другом – B от A.

Вот пример, показывающий разницу между двумя этими случаями. Пусть событие A будет «Проживанием в штате Нью-Йорк», а событие B – «Проживанием в городе Нью-Йорк». P(A | B), то есть вероятность проживания в штате Нью-Йорк при условии, что вы живете в городе Нью-Йорк, сильно отличается от P(B | A) – вероятности проживания в городе Нью-Йорк при условии, что вы живете в штате Нью-Йорк. В первом случае вероятность составляет 100 %, P(A | B) = 1, а во втором – нет, поскольку около 60 % жителей штата Нью-Йорк живут за пределами города Нью-Йорк.

В таком простом примере все довольно очевидно, однако перестановка зависимостей и предположение о том, что P(A | B) = P(B | A) – настолько распространенная ошибка, что ей дали название и посвятили целую статью в Википедии – Confusion of the Inverse («ошибка приравнивания двух условных вероятностей»)[54]. Вы наверняка тоже допустили ее в процессе выполнения мысленного упражнения, предложенного в начале этой главы.

Давайте вернемся к сценарию из этого упражнения.

Ваша компания подверглась хакерской атаке, в результате которой 1 % ноутбуков оказались заражены вирусом. Положительный результат теста на наличие вируса – это событие +, отрицательный результат – событие —, инфицирование вирусом – событие В. Вам была предоставлена следующая информация: P(+ | В) = 99 %, P(– | без В) = 99 % и P(В) = 1 %. Другими словами, вероятность положительного результата теста при наличии вируса на ноутбуке составляет 99 %, вероятность отрицательного результата теста при отсутствии вируса на ноутбуке составляет 99 %, а вероятность наличия вируса на произвольно выбранном ноутбуке составляет 1 %.

Мы хотели определить вероятность того, что компьютер заражен вирусом, при условии положительного результата теста, P(В | +). Именно здесь возникла вышеописанная путаница. Речь шла о P(В | +), а не о P(+ | В), однако многие люди при выполнении этого упражнения дают ответ, соответствующий P(+ | В) = 99 %.

Вероятности P(В | +) и P(+ | В) не одинаковы, однако они связаны между собой теоремой Байеса – одной из самых известных теорем в теории вероятностей и статистике.

Теорема Байеса

Теорема Байеса, сформулированная в XVIII веке, – это способ работы с условными вероятностями, который применяется повсюду, начиная с планирования сражений и управления финансами и заканчивая расшифровкой ДНК[55]. Для двух событий A и B теорема Байеса утверждает следующее:


P(A | B) × P(B) = P(B | A) × P(A)


Пусть вас не пугает эта формула. Самое важное – не запомнить ту или иную формулу, а понять, что она делает и почему о ней стоит знать.

Теорема Байеса позволяет связать условную вероятность двух событий. Вероятность наступления события A при условии наступления события B связана с вероятностью наступления события B при условии наступления события A. Они не равны, но связаны приведенным выше уравнением.

Это может пригодиться, когда вам известна одна из условных вероятностей и вы хотите определить другую. Например:


– Медицинские исследователи хотят знать вероятность того, что у человека будет положительный результат скринингового теста на рак при условии, что этот человек болен раком, P(+ | Р). Тогда они смогут создать более точные тесты, позволяющие немедленно приступить к лечению. Разработчики политики хотят знать обратное – вероятность того, что человек болен раком при условии положительного результата скринингового теста, P(Р | +), потому что они не хотят подвергать людей ненужному лечению на основании ложноположительного результата (когда тест показывает наличие болезни при ее отсутствии).

– Прокуроры хотят знать вероятность того, что подсудимый виновен при условии наличия доказательств, P(В | Д). Это зависит от вероятности обнаружения доказательств при условии, что человек виновен, P(Д | В).

– Ваш поставщик услуг электронной почты хочет знать вероятность того, что электронное письмо – спам при условии, что оно содержит фразу «Бесплатные деньги!», P(Спам | Деньги). Используя исторические данные, он может рассчитать вероятность того, что электронное письмо содержит фразу «Бесплатные деньги!» при условии, что оно является спамом, P(Деньги | Спам). (Мы более подробно разберем этот пример в главе 11.)

– В вышеописанном мысленном упражнении вы хотите узнать вероятность наличия вируса на вашем компьютере при условии положительного теста, P(В | +). Вам известно обратное – вероятность положительного результата теста при условии наличия вируса в компьютере P(+ | В).

Все условные вероятности в этих примерах связаны теоремой Байеса. Это хорошая новость. Плохая новость – некоторые части этой теоремы трудно рассчитать. Дело в том, что не все вероятности легко выяснить. Например, вероятность того, что человек болен раком при условии положительного результата скринингового теста, может быть легче узнать, чем вероятность наличия этого заболевания у человека с отрицательным результатом теста.

Чтобы определить, достаточно ли у вас информации для применения теоремы Байеса, можно построить древовидную диаграмму (рис. 6.2). В качестве примера мы используем то же самое мысленное упражнение – и наконец покажем, почему правильный ответ составляет 50 %. Предположим, что в компании 10 000 ноутбуков. Поскольку вероятность положительного результата теста при наличии вируса на ноутбуке составляет 99 %, мы предполагаем, что при тестировании 1 % ноутбуков с вирусом мы будем получать отрицательный результат теста, P(– | В) = 1 %. Точно так же, учитывая, что вероятность отрицательного результата теста при отсутствии вируса на ноутбуке составляет 99 %, мы предполагаем, что при тестировании 1 % ноутбуков без вируса мы будем получать положительный результат теста, P(+ | без В) = 1 %.

Как видно на рис. 6.2, исходя из имеющейся у нас информации, 10 000 ноутбуков можно разделить на четыре группы: ноутбуки с вирусом, давшие отрицательный или положительный результат при тестировании, и ноутбуки без вируса, давшие отрицательный или положительный результат при тестировании. Давайте разберемся, что это значит. Если вы посмотрите на древовидную диаграмму, то поймете, что нам интересны только две ветви. Первый случай предполагает наличие вируса и положительный результат тестирования – это 99 ноутбуков. Второй случай предполагает отсутствие вируса и опять же положительный результат тестирования – тоже 99 ноутбуков. Такой результат называется ложноположительным.


Рис. 6.2. Древовидная диаграмма для сканирования компьютеров в большой компании на наличие вируса


Дело вот в чем. Мы уже знаем, что результат тестирования компьютера оказался положительным. Это означает, что он может принадлежать только одной из этих двух групп. Вы не знаете, какой именно, но если представить ноутбуки в виде шариков одинакового размера, то при вытаскивании одного из них вслепую из мешка вероятность того, что вы достанете шарик из той или иной группы, будет составлять 50 %.

А теперь давайте проверим свое (новое) интуитивное понимание ситуации математикой. Для этого используем теорему Байеса, заменив события A и B событиями В и +: P(В | +) × P(+) = P(+ | В) × P(В). Затем подставим известные нам величины вероятности:

P(+) = вероятность положительного результата теста = 198 положительных результатов /10000 = 1,98%

P(+ | В) = 99/100 = 99%

P(В) = 100/10000 = 1%

Подставив эти значения в выражение P(В | +) × P(+) = P(+ | В) × P(В), получаем:

P(В | +) × 1,98 % = 99 % × 1 %,

P(В | +) = (99 % × 1 %)/1,98%

P(В | +) = 50%


Математики многовато, но она позволила нам прийти к правильному ответу: вероятность наличия вируса на вашем ноутбуке при положительном результате теста составляет 50 %.

Убедитесь, что вероятности имеют смысл

В этой главе вам пришлось иметь дело с множеством чисел и обозначений, особенно в предыдущем разделе. Теперь давайте сделаем шаг назад и поговорим о способах осмысления и использования вероятностей.

Калибровка

Определяемые вероятности должны иметь смысл.

Например, при условии равных затрат и выгод проект с вероятностью успеха 60 % сопряжен с большим риском, чем проект с вероятностью успеха 75 %.

Мы знаем, что это кажется очевидным, однако люди часто оценивают события с вероятностью 60 % или 75 % как весьма вероятные, потому что их вероятность превышает 50 %. Но если бы это было так, вероятности не имели бы никакого значения и сводились бы к бинарным решениям типа «да/нет», при которых полностью утрачивается смысл статистического мышления и работы с неопределенностью.

Более того, если вероятность события составляет 75 %, оно должно происходить примерно в 75 % случаев[56]. Это кажущееся очевидным утверждение, называемое калибровкой, придает вероятности смысл. «Калибровка определяет соответствие фактической частоты наступления тех или иных событий в долгосрочной перспективе вашему прогнозу»[57].

Плохая калибровка делает невозможной точную оценку риска. Если вы самоуверенный юрист, который думает, что выиграет дело с вероятностью 90 %, хотя до этого выигрывал только в 60 % случаев, вы переоцениваете свои шансы на успех. Это пример плохой калибровки.

Итак, вероятности должны иметь смысл. Помните о том, что редкие события не являются невозможными, а высоковероятные события не обязательно наступают.

Редкие события могут случаться и случаются

Редкое событие может не произойти с вами или с кем-либо из ваших знакомых, но это не значит, что оно не произойдет вообще. Тем не менее у нас часто возникают сложности с пониманием редких событий.

Это правда: вы вряд ли сорвете джекпот в лотерею, однако некоторые люди в нее все-таки выигрывают. Если учесть количество лотерей, проводимых по всему миру каждый день, вероятность того, что столь редкое событие произойдет с кем-то из жителей планеты, пусть даже не с вами, оказывается не такой уж и низкой.

Мы часто забываем об огромном количестве людей, живущих на Земле. При населении в несколько миллиардов человек события типа «1 на миллион» кажутся гораздо более вероятными. На самом деле, участниками таких событий становится гораздо больше людей, чем мы можем себе представить. В мире, где проживает 7,8 миллиарда человек, событие типа «1 на миллион» может происходить ежедневно с участием 7800 человек.

С другой стороны, то или иное событие очень легко представить чрезвычайно редким, чтобы придать ему драматизма (а возможно, даже ввести в заблуждение). Например, в американском футболе очень часто встречаются комментарии, намекающие на редкость происходящего на экране события. «Это первый раз, когда 28-летний новичок пробежал 30 ярдов после двух выездных игр и всего одной игры в предсезонке». Если сформулировать это так, то данное событие действительно может показаться редким.

Не перемножайте вероятности без необходимости

Не перемножайте вероятности прошлых событий без особой необходимости. В противном случае вы можете сделать то или иное событие практически невероятным.

Давайте прикинем вероятность того, что вы читаете именно эту строку на этой странице этой самой книги. Помимо данной строки на этой странице еще примерно 35 строк (1/35), в книге – еще 300 страниц (1/300), а в мире – миллионы книг. Если вы перемножите эти вероятности, то получите бесконечно малое число. Очевидно, мы были созданы друг для друга!

Подведение итогов

Эта глава должна была научить вас не только основам теории вероятностей, но и смирению. Вероятности – это сложная тема. Однако важное условие успешного изучения новой темы – осознание того, что что-то может пойти не так. Информация, которую вы узнали из этой главы, поможет вам найти дополнительные сведения, прежде чем принимать решения относительно вероятности, особенно в тех случаях, которые на первый взгляд кажутся интуитивно понятными.

В этой главе мы показали, как легко можно ошибиться при определении вероятностей. Иногда ошибка заключается в самой формулировке вопроса, а иногда – в предположениях, основанных на предоставляемой информации. Чтобы избежать недоразумений, пользуйтесь нашими рекомендациями при анализе вероятностей:


– Будьте осторожны, делая предположения о независимости событий.

– Знайте, что все вероятности являются условными.

– Убедитесь в том, что вероятности имеют смысл.

Глава 7