Говорите как главный по данным
Часть II, «Говорите как главный по данным», так же, как и первая, побуждает вас мыслить статистически и подвергать все сомнению. В ней вы найдете вопросы, которые следует задать, и вещи, которые следует обдумать независимо от того, о чьем проекте по работе с данными идет речь – о вашем или о чужом. Многие из этих вопросов отражены в названиях будущих разделов. Считайте это своеобразной подсказкой. Данная часть книги состоит из следующих глав:
Глава 4. Сомневайтесь в данных.
Глава 5. Исследуйте данные.
Глава 6. Изучайте вероятности.
Глава 7. Бросайте вызов статистике.
Прочитав эти главы, вы научитесь задавать правильные вопросы относительно данных и аналитики, с которыми будете сталкиваться на работе.
Глава 4Сомневайтесь в данных
«Для извлечения разумного ответа из имеющейся совокупности данных одного страстного желания недостаточно»
Как главный по данным, именно вы должны подвергать сомнению данные, используемые в рамках того или иного проекта.
Мы говорим о необработанных данных – исходном материале, на основе которого рассчитываются все статистические показатели, строятся модели машинного обучения и создаются визуализации, отображаемые на информационных панелях. Это данные, которые хранятся в ваших электронных таблицах или базах данных. Если эти необработанные данные плохие, то никакие методы очистки, статистической обработки или машинного обучения не помогут это скрыть. В качестве резюме для данной главы лучше всего подходит фраза, которую вы, вероятно, уже слышали: «Мусор на входе, мусор на выходе». В этой главе мы перечислим те типы вопросов, которые вам следует задать, чтобы оценить качество имеющихся у вас данных.
Мы выделили три основных и несколько уточняющих вопросов, которые помогут вам поспорить с имеющимися данными.
– Какова история происхождения этих данных?
• Кто собирал данные?
• Как собирались эти данные?
– Являются ли данные репрезентативными?
• Имеет ли место предвзятость выборки?
• Что вы сделали с выбросами?
– Какие данные я не вижу?
• Как вы поступили с отсутствующими значениями?
• Позволяют ли данные измерить то, что вас интересует?
В следующих разделах мы подробно рассмотрим каждый вопрос, поговорим о причинах, по которым его следует задавать, и о том, какие проблемы он обычно позволяет обнаруживать.
Однако прежде, чем это сделать, мы предлагаем вам выполнить одно мысленное упражнение.
Что бы вы сделали?
Вы отвечаете за крупный проект в технологической компании, которая находится на пороге прорыва в области создания беспилотных автомобилей. Это важный момент для вас и вашей работы, не говоря уже о карьере. Успешная демонстрация вашего продукта обещает искупить все сверхурочные часы работы, чрезмерно оптимистичные обещания, данные руководству, задержки в реализации проекта и бюджетные затраты на исследования и разработки.
И сейчас вечер накануне презентации прототипа нового автомобиля.
Руководители компании, десятки сотрудников, потенциальные инвесторы и представители СМИ проехали сотни километров, чтобы засвидетельствовать то, что может стать переломным моментом в истории автомобилестроения. Однако поздно вечером ваш старший инженер сообщает, что на завтра синоптики прогнозируют 31 °F (–1 °C). По словам инженера, низкие температуры могут поставить под угрозу жизненно важные компоненты инновационной системы автономного вождения прототипа автомобиля. Дело не в том, что он уверен в непременном возникновении проблемы. Просто система, которую в будущем планируется адаптировать и испытать при отрицательных температурах, еще не была опробована на морозе, так что демонстрация рискует превратиться в публичную и дорогостоящую катастрофу.
Однако перенести подобное мероприятие дорого и непросто. Если презентация не состоится завтра, то идеальных условий придется ждать месяцами. Ваша компания потратила большую часть предыдущего года на создание ажиотажа вокруг этого момента. Если презентацию перенести, уровень заинтересованности уже не будет таким высоким.
Вы просите инженера предоставить данные, заставляющие его беспокоиться о возможном повреждении внутренних компонентов автомобиля из-за низких температур. Он показывает вам график, представленный на рис. 4.1.
По словам инженера, компания провела 23 тест-драйва при различных температурах, и в ходе семи из них (отмеченных на графике) имел место выход из строя критической части системы самонавигации. В ходе двух тест-драйвов из строя вышли сразу два критических компонента.
Рис. 4.1. График зависимости числа отказов критических компонентов от температуры во время тест-драйвов
Ваши инженеры учли вероятность подобных отказов, поэтому они обеспечили избыточность. Каждая система предусматривает шесть критических компонентов (вот почему максимальное значение на вертикальной оси – 6). Наличие запасных частей означает, что даже в случае поломки некоторых из них машина продолжит функционировать. В ходе 23 тест-драйвов из строя ни разу не вышло сразу более двух компонентов, поэтому и проблем с использованием автомобиля ни разу не возникло. В обоих случаях, имевших место при температуре 53 °F (12 °C) и 75 °F (24 °C), машина так и не остановилась. Минимальная температура, при которой проводилось испытание, составляла 53 °F (12 °C), а максимальная – 81 °F (27 °C).
«Однако мы не тестировали систему при более низких температурах», – говорят инженеры. И вы понимаете, что они обеспокоены.
Но как бы вы ни старались, вы не можете заметить связь между температурой и вероятностью отказа компонентов за исключением того, что все они имели место при температурах значительно выше 30 °F (–1 °C). Вам трудно представить сценарий, при котором низкие температуры могут вывести из строя более двух компонентов из шести, учитывая данные, полученные в ходе 23 тест-драйвов. Кроме того, машина вполне может продолжать движение и при наличии четырех исправных критических компонентов. Если во время демонстрации выйдет из строя максимум два, узнает ли об этом кто-нибудь вообще?
Что бы вы сделали? Отложили бы презентацию или провели ее в запланированный день?
Остановитесь на мгновение и подумайте о том, есть ли какие-нибудь недостающие данные, которые вы захотели бы учесть.
Катастрофа, вызванная недостатком данных
28 января 1986 года на глазах у всего мира НАСА запустило космический шаттл «Челленджер» из Космического центра им. Кеннеди во Флориде при отрицательных температурах.
Рис. 4.2. График зависимости числа неисправностей уплотнительных колец от температуры во время полетов. График взят из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер»
Многие из нас знают эту часть истории «Челленджера», однако мало кто знаком со стоящими за ней данными. Дело в том, что у «Челленджера» тоже было шесть критически важных компонентов, известных как уплотнительные кольца, которые «предотвращают утечку горящего ракетного топлива из соединений ускорителя»[25]. До запуска в ходе 23 испытаний имели место семь инцидентов с этими уплотнительными кольцами.
Знакомый сценарий?
Вечером накануне запуска НАСА оказалось перед тем же трудным выбором, что и вы в ходе выполнения своего мысленного упражнения. Согласно отчету комиссии Роджерса (который был заказан президентом Рональдом Рейганом после аварии «Челленджера»), в ночь перед запуском состоялось совещание по этому вопросу.
Менеджеры сравнили только те полеты, в ходе которых наблюдались тепловые повреждения уплотнительных колец, вместо того, чтобы проанализировать частоту возникновения этой неисправности с учетом всех полетов (рис. 4.2)[26].
«При таком сравнении, – говорилось в отчете, – в распределении «повреждений» уплотнительных колец в диапазоне температур швов между 53 и 75 градусами по Фаренгейту, фиксируемых при запуске, нет ничего необычного».
Проанализировав эти неисправности, НАСА осуществило запуск. Но из-за необычно холодных условий уплотнительные кольца не сработали должным образом, и на 73-й секунде полета шаттл развалился на части. Погибли все семь астронавтов на борту.
Как вы думаете, какие данные упустили специалисты космического агентства?
Как насчет тех 16 испытательных запусков, в ходе которых не возникло никаких неисправностей, отмеченных на рис. 4.3 и задокументированных комиссией Роджерса?
Рис. 4.3. График зависимости числа неисправностей уплотнительных колец от температуры во время полетов, включая испытательные запуски без инцидентов. График взят из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер»
В главе 2 «Что такое данные?» мы говорили о том, как тип данных диктует выбор метода анализа. Это как раз один из таких случаев. Количество инцидентов – это числовые счетные данные, которые требуют применения специального типа моделирования, называемого биномиальной регрессией. Поскольку речь идет о счетных, а не о непрерывных данных, вы не можете использовать линейную регрессию, о которой мы поговорим в главе 9. Описание биномиальной регрессии выходит за рамки этой книги, но тип данных, о которых идет речь, диктует использование именно этого метода анализа. Если бы вы использовали линейную регрессию, чтобы провести прямую линию через точки данных, вы бы предсказали отрицательные значения количества отказов для высоких температур, что не имеет никакого смысла.
Вернемся к мысленному упражнению. Запросили бы вы какие-нибудь недостающие данные? Если бы вы это сделали, а возможно, и привлекли бы к анализу статистиков, вы могли бы заметить тенденцию, предупреждающую о возможном отказе компонентов при более низких температурах. На рис. 4.4 показаны испытания нашего гипотетического беспилотного автомобиля, в том числе те, в ходе которых критические компоненты не выходили из строя.
Рис. 4.4. График зависимости числа отказов критических компонентов от температуры во время тест-драйвов. Линия представляет собой модель биномиальной регрессии
В последующие десятилетия статистики, инженеры и исследователи тщательно изучали данные[27], связанные с катастрофой «Челленджера». С помощью этого реального сценария мы хотели продемонстрировать вам те вопросы, с которыми приходится сталкиваться специалистам по работе с данными. В статье, опубликованной в престижном журнале Journal of the American Statistical Association (JASA), издаваемом Американской статистической ассоциацией, был представлен анализ, который мы воссоздали на рис. 4.4. Он говорит о том, что при отрицательных температурах пять из шести основных уплотнительных колец могут выйти из строя. При составлении этого графика использовались данные, которые не были учтены накануне запуска шаттла. В статье говорится о том, что «статистическая наука могла внести ценный вклад в процесс принятия решения о запуске»[28].
Хотели бы вы увидеть такой же график накануне важной презентации?
Внимательные читатели, вероятно, заметили небольшое расхождение между данными, представленными на рис. 4.1, и графиками из отчета комиссии Роджерса на рис. 4.2 и 4.3. На рис. 4.1 температуре 53 °F (12 °C) соответствуют два инцидента, а на рис. 4.2 и 4.3 – три. (Все остальные точки данных совпадают.) Дело в том, что конструкция космического челнока предусматривала шесть основных и шесть второстепенных уплотнительных колец. Третий инцидент при температуре 53 °F (12 °C), отмеченный на рис. 4.2 и 4.3, произошел со второстепенным уплотнительным кольцом и был единственным случаем подобного повреждения, имевшим место в ходе 23 полетов, предшествовавших катастрофе. Приведенный здесь анализ сосредоточен на шести основных уплотнительных кольцах, как и анализ, приведенный в статье в журнале JASA.
История «Челленджера» демонстрирует довольно распространенное и пугающее явление. Мы часто сосредоточиваемся на данных, которые, как нам кажется, кодируют нужную нам информацию, отбрасывая при этом те данные, которые мы считаем несущественными. Мы признаем, что далеко не во всех ситуациях последствия могут быть столь же ужасными, как в случае с «Челленджером», когда на карту было поставлено так много.
Мы не утверждаем, что анализ полного набора данных позволил бы принять правильное решение. Никто не может знать это наверняка. Другие факторы тоже, безусловно, сыграли свою роль. Мы просто хотим сказать, что спор с данными часто помогает сделать дополнительные открытия.
И в этом смысле история, рассказанная данными о состоянии «Челленджера», вполне ясна. Однако большинство компаний не спорят со своими данными, развивая вместо этого культуру принятия. Результат этого – систематические провалы проектов по работе с данными, обусловленные неготовностью задавать важные вопросы.
Итак, цель этой главы – научить вас спорить с данными и задавать правильные вопросы.
Расскажите мне историю происхождения данных
Все данные берутся из какого-то источника, который нам не следует игнорировать. Итак, мы предлагаем вам спросить: «Каково происхождение этих данных?»
Этот вопрос нравится нам тем, что он является открытым и позволяет быстро оценить согласованность сырых данных с заданным относительно них вопросом. Кроме того, для ответа на него не требуются ни математические, ни статистические знания. Еще важнее то, что сам вопрос создает ощущение открытости и укрепляет доверие к последующим результатам (или заставляет сомневаться в них).
Внимательно проанализируйте ответ на предмет возможных проблем с корректностью и целостностью данных, обусловленных особенностями создавшего их лица или организации.
В частности, постарайтесь получить ответы на следующие вопросы:
– Кто собирал данные?
– Как собирались эти данные? Это данные наблюдений или экспериментальные данные?
Кто собирал данные?
Задавая этот вопрос, мы пытаемся, во-первых, установить, откуда именно были получены данные, а во-вторых, выявить возможные проблемы, связанные с их происхождением, чтобы при необходимости задать дополнительные вопросы.
Многие крупные компании считают, что все их данные берутся из внутреннего источника. Например, компания, использующая данные о рабочей силе (то есть данные, основанные на результатах опросов сотрудников и другой соответствующей информации), на самом деле может использовать данные, собранные третьей стороной и принадлежащие ей. Потребление этих данных может происходить через портал компании. Это может создать иллюзию того, что данные были собраны компанией и принадлежат ей, даже если это не так.
Мы хотим, чтобы вы точно определили того, кто собирал данные. Как главный по данным, вы должны убедиться в том, что полученные извне данные надежны и имеют отношение к поставленной бизнес-задаче. Большую часть данных, полученных из сторонних источников, довольно трудно использовать в том формате, в котором они предоставляются. Вам или кому-то из вашей команды придется преобразовать данные, полученные от третьей стороны, в нужный формат и придать им необходимую структуру, чтобы привести их в соответствие с уникальными информационными активами вашей компании.
Как собирались эти данные?
Вам также необходимо выяснить, как собирались данные. Этот вопрос поможет вам выявить возможные недопустимые выводы, сделанные об этих данных, а также этические проблемы, связанные с процессом их сбора.
Напомним, что существуют два основных метода сбора данных – наблюдение и эксперимент.
Наблюдение – это пассивный способ сбора данных. Примерами данных наблюдений могут быть количество посетителей веб-сайтов, посещаемость занятий и объем продаж. Экспериментальные данные собираются в условиях эксперимента при участии групп активного воздействия и принятии проверенных временем мер предосторожности, позволяющих обеспечить целостность и избежать искажения результатов из-за смешивающихся переменных. Экспериментальные данные – это золотой стандарт. Благодаря тщательному планированию эксперимента, направленному на обеспечение надежности результатов, эти данные позволяют выявлять причинно-следственные связи. Например, экспериментальные данные могут помочь ответить на следующие вопросы[29]:
– Если мы дадим пациенту новое лекарство, поможет ли это вылечить его?
– Если мы дадим 15 %-ную скидку на наш продукт, приведет ли это к росту продаж в следующем квартале?
Однако большая часть бизнес-данных относится к данным наблюдений. Для установления причинно-следственных связей не стоит использовать исключительно данные наблюдений[30]. Поскольку такие данные не были собраны в ходе тщательно продуманного эксперимента, их полезность и основанные на них результаты должны оцениваться в соответствующем контексте. Любые утверждения о причинно-следственной связи, основанные на данных наблюдений, следует воспринимать скептически.
Задав вопрос о способе сбора данных, вы сможете понять, насколько обоснован вывод о наличии причинно-следственной связи. На самом деле некорректное установление причинности – весьма существенная проблема, к которой нам еще не раз предстоит вернуться в следующих главах книги.
Казалось бы, для решения этой проблемы достаточно как можно чаще использовать экспериментальные данные. Однако их сбор не всегда возможен, финансово оправдан и даже этичен. Например, если бы вам поручили изучить влияние «вейпинга» (курения электронных сигарет) на подростков, вы не смогли бы случайным образом разделить испытуемых на экспериментальную и контрольную группы и заставить участников первой группы курить электронные сигареты во имя науки. Это было бы неэтично.
Как главный по данным, вы должны работать с имеющимися у вас данными, одновременно опосредуя их способность влиять на принимаемые бизнес-решения. У некоторых компаний и отделов есть ресурсы, позволяющие проверить многообещающие данные наблюдений с помощью серьезных экспериментов. Однако далеко не все бизнес-проблемы поддаются экспериментальному анализу.
Являются ли данные репрезентативными?
Вы должны убедиться в том, что имеющиеся у вас данные отражают характеристики интересующей вас совокупности. Если вас интересуют покупательские привычки американских подростков, то ваш набор данных должен отражать покупательские привычки всех подростков, живущих в США.
Индуктивная статистика существует именно потому, что у нас редко (если вообще когда-либо) есть все данные, необходимые для решения стоящей перед нами проблемы. Мы вынуждены опираться на выборки[31]. Однако если выборка нерепрезентативна, то выводы, сделанные на ее основе, не будут отражать реальные характеристики генеральной совокупности. Чтобы убедиться в репрезентативности данных, задайте следующие вопросы:
– Имеет ли место предвзятость выборки?
– Что вы сделали с выбросами?
Имеет ли место предвзятость выборки?
Предвзятость выборки возникает тогда, когда имеющиеся у вас данные систематически отклоняются или отличаются от тех данных, которые вас интересуют. Предвзятость выборки часто обнаруживается по косвенным признакам после принятия множества решений на основе данных, плохо отражающих ту проблему, для решения которой они были собраны. Систематическая неспособность получить предсказанный данными результат заставляет аналитиков вернуться к началу и проверить корректность исходных данных.
Если вы захотите узнать рейтинг одобрения политика на основе опроса избирателей, состоящих в его политической партии, ваша выборка будет предвзятой. Хороший план эксперимента позволяет предотвратить эту проблему.
В своей работе вы можете столкнуться с изначально предвзятыми данными. Данные наблюдений особенно подвержены подобной предвзятости. Вопрос: «Зачем данные были собраны?» поможет вам понять их назначение. При сборе подобных данных редко принимаются меры для обеспечения их непредвзятости.
Вам следует рассматривать все данные наблюдений как изначально предвзятые. Вам не нужно их отбрасывать, но вы всегда должны учитывать их недостатки.
Что вы сделали с выбросами?
Представьте, что в зарплатной ведомости компании вы видите цифру 50 000 000 долларов США рядом с именем нового управляющего. Вы бы посчитали это значение выбросом? Что бы вы с ним сделали?
Выбросы – это точки данных, которые значительно отличаются от всех остальных. Обнаружение выбросов должно спровоцировать дискуссию о том, какие данные следует исключить из анализа. Если кому-то не нравится влияние экстремального значения на результат анализа, это еще не значит, что от этого значения следует избавиться. Для удаления точки данных необходимо иметь хорошее обоснование.
Произвольное присвоение точкам данных статуса выбросов может привести к тому, что ваша выборка станет предвзятой. В случае исключения выброса исходная точка данных и причина ее исключения должны быть задокументированы и доведены до сведения остальных, особенно если это исключение привело к существенному изменению результата.
Какие данные я не вижу?
Отсутствующие данные – это данные, которые либо не были зафиксированы (не имеют источника), либо вы их просто еще не видели. Рассмотрим следующие примеры:
– Данные о неполной занятости не учитываются при определении уровня безработицы.
– Компания, инвестирующая во взаимные фонды, «списывает» активы с плохой доходностью, в результате чего долгосрочная доходность оставшихся фондов в среднем оказывается выше.
– В истории «Челленджера» не было учтено 16 из 23 точек данных, связанных с полетами этого космического челнока.
Всегда стоит задумываться об информации, которая не была закодирована в рассматриваемых вами данных. Играйте в детектива[32].
Как вы поступили с отсутствующими значениями?
Отсутствующие значения – это буквально дыры в наборе данных. Они представляют собой точки данных, которые не были собраны, или исключенные выбросы (см. предыдущий раздел). Отсутствующие значения представляют проблему, но ее можно решить. Итак, всегда стоит спросить: «Как вы поступили с отсутствующими значениями?»
Предположим, вы работаете в компании, выпускающей кредитные карты, и собираете такие данные заявителей, как имя, адрес, возраст, статус занятости, доход, ежемесячные расходы на жилье и количество имеющихся банковских счетов. Ваша задача – предсказать, не просрочат ли эти заявители платеж в следующем году. Однако несколько заявителей не указывают свои доходы, из-за чего в системе сохраняется пробел – отсутствующее значение.
Вернемся к истории происхождения данных. Эта история начинается с подачи заявки на получение кредитной карты. Возможно, заявитель не указал свой доход, потому что думал, что ему откажут в выдаче кредитной карты, если его доход окажется слишком низким. Это означает, что сам факт отсутствия этого значения может говорить о возможной просрочке платежа в будущем. Такую информацию ни в коем случае не стоит отбрасывать!
Понимая это, дата-сайентист может создать новый категориальный признак под названием «Доход указан?» и ввести значение 1, если человек указал свой доход, и 0, если он этого не сделал. Таким образом, можно закодировать отсутствующие данные с помощью специальной категориальной переменной.
Позволяют ли данные измерить то, что вас интересует?
Мы часто верим в возможность измерить все и вся. Однако при анализе сложных идей, прежде чем что-то измерять, вам необходимо выяснить, позволяют ли предоставленные данные это сделать. Например, подумайте вот о чем:
– Как бы вы измерили лояльность клиента к вашей компании?
– Какие данные вы использовали бы для измерения «капитала бренда» или «репутации»?
– Какие данные могут показать, насколько сильно вы любите своего ребенка? Или домашнего любимца?
Все это очень трудно измерить. Благодаря кодированию информации данные позволяют нам приблизиться к ответам на эти вопросы, но в целом используемые нами данные представляют собой некоторую замену того, что мы пытаемся измерить. И степень, в которой такие данные отражают реальность, варьируется[33].
Поскольку измерение таких сложных показателей, как капитал бренда и репутация, требует косвенных приближений, вы должны быть максимально правдивыми и честными в отношении ваших данных.
Сомневайтесь в данных любого размера
Может показаться, что сбор большего количества данных позволяет решить проблемы, присущие ограниченным выборкам. Однако не стоит думать, что чем больше выборка, тем надежнее данные. Если данные собраны должным образом, то большая выборка может помочь, однако в случае наличия предвзятости дополнительные данные вас не спасут.
Недолговечная шумиха вокруг больших данных предполагала, что большее количество данных само по себе может обеспечить большую научную строгость. Не думайте, что набор данных слишком большой для того, чтобы с ним спорить. Статистика не предполагает какого-либо порогового значения для размера выборки, превышение которого автоматически избавляет ее от предвзятости. Статистика предполагает поиск компромиссов между тем, что вы хотите узнать, и имеющимися у вас данными[34].
Подведение итогов
Мы начали эту главу с обсуждения данных о катастрофе шаттла «Челленджер», но перенесли их на пример с автомобилем. Как было сказано в начале этой книги, умные люди и организации нередко допускают ошибки в данных.
Вот почему мы перечислили вопросы, которые вам следует задать, и различные проблемы, которые эти вопросы позволяют выявить. Мы рекомендуем вам использовать эти вопросы, чтобы глубже изучить проблемы, связанные с вашими данными. Вы можете самостоятельно придумать дополнительные вопросы. Мы настоятельно рекомендуем вам поделиться этими вопросами с вашей командой, чтобы согласовать усилия всех ее членов. Постоянно задавая сложные вопросы, главные по данным демонстрируют свою способность анализировать данные и подают хороший пример другим.