Рис. 2.6
Два набора (вымышленных) данных, для которых коэффициент корреляции Пирсона будет примерно равен 0. Совершенно ясно, что это не говорит об отсутствии зависимости между двумя величинами. Из чудесной подборки диаграмм[56]Альберто Каиро[57]
Для данных за 1991–1995 годы, представленных на диаграмме 2.5(a), коэффициент корреляции Пирсона равен 0,59. Это подкрепляет связь между увеличением количества и ростом выживаемости. При удалении данных о Бристольской больнице коэффициент повышается до 0,67, поскольку оставшиеся точки ближе к прямой линии.
Другой критерий – ранговый коэффициент корреляции Спирмена, названный в честь английского психолога Чарльза Спирмена (создателя двухфакторной теории интеллекта[58]), – зависит не от конкретных численных значений, а от их рангов, то есть от занимаемых ими мест, если их упорядочить по величине. Это означает, что он может быть близок к 1 или –1, если точки близки к линии со стабильным подъемом или понижением, даже если эта линия не является прямой. Ранговый коэффициент Спирмена для данных на диаграмме 2.5(a) равен 0,85, что существенно выше, чем коэффициент Пирсона, поскольку точки ближе не к прямой, а к возрастающей кривой.
Для данных за 2012–2015 годы на диаграмме 2.5(b) коэффициент корреляции Пирсона равен 0,17, а ранговый коэффициент Спирмена – 0,03, что говорит об отсутствии четкой связи между количеством операций и уровнем выживаемости. Однако при таком небольшом количестве больниц коэффициент корреляции может быть очень чувствителен к отдельным точкам-данным: если мы уберем самую маленькую больницу с высоким уровнем выживаемости, то коэффициент корреляции Пирсона резко повысится до 0,42.
Коэффициенты корреляции – это просто некоторые характеристики связей, и их нельзя использовать для вывода о наличии взаимозависимости между количеством операций и показателем выживаемости, не говоря уже о том, почему такая связь может существовать[59]. Во многих приложениях ось x представляет независимую переменную, и интерес вызывает ее влияние на зависимую переменную, которая изображается по оси y. Однако, как мы увидим далее в главе 4, посвященной причинно-следственным связям, такое предположение заранее фиксирует направление влияния. Даже по диаграмме 2.5(a) мы не можем сделать вывод, что повышение показателя выживаемости в каком-либо смысле вызвано увеличением числа операций, ведь на самом деле все может быть наоборот: лучшие больницы просто привлекают больше пациентов.
Описание трендов
Каковы закономерности роста мирового населения за последние полвека?
Население мира растет, и понимание движущих факторов демографических изменений крайне важно для подготовки к вызовам, с которыми разным странам придется столкнуться сейчас или в будущем. Отдел народонаселения ООН дает оценки численности населения для всех стран мира с 1951 года по настоящее время, а также с прогнозом до 2100 года[60]. Сейчас мы рассмотрим мировые тенденции, начиная с 1951 года.
На рис. 2.7(a) представлены простые линейные графики для населения начиная с 1951 года. Видно, что за этот период оно утроилось и составляет примерно 7,5 миллиарда. Увеличение произошло в основном за счет стран Азии, однако закономерности для других континентов на рис. 2.7(a) уловить трудно. Впрочем, использование логарифмической шкалы на рис. 2.7(b) позволяет их разделить, обнаруживая более крутой уклон у Африки и более пологий в других местах, в частности в Европе, где в последнее время численность населения уменьшается.
Рис. 2.7
Общая численность населения планеты, отдельных континентов и стран между 1950–2015 годами: (a) показывает тренды на стандартной шкале; (b) – на логарифмической шкале, вместе с линиями трендов для отдельных стран с населением не менее миллиона человек в 1951 году
Серые линии на рис. 2.7(b) отображают изменения в отдельных странах, однако выявить отклонения от общей тенденции к росту невозможно.
На рис. 2.8 представлена простая сводная характеристика тренда для каждой страны – относительный рост населения за период с 1951 по 2015 год. Скажем, относительный рост 4 означает, что в 2015 году в стране жило в четыре раза больше людей, чем в 1951-м (как, например, в Либерии, Камеруне и на Мадагаскаре). Использование значков, пропорциональных размеру страны, привлекает внимание к более крупным государствам, а группировка по частям света позволяет сразу же обнаруживать как общие кластеры, так и выбросы. Всегда полезно разделять данные в соответствии с каким-нибудь фактором (в нашем случае – с континентом), который в какой-то степени объясняет общие изменения.
Рис. 2.8
Относительный рост населения с 1951 по 2015 год в странах, население которых в 1951 году составляло не менее миллиона человек
Значительный рост населения наблюдается в Африке, но с большим разбросом и одним экстремальным случаем – Кот-Д’Ивуар. Азия тоже демонстрирует существенные различия, что отражает широкое разнообразие стран этого континента; здесь экстремальные случаи – Грузия и Япония, с одной стороны, и Саудовская Аравия – с другой (у нее самый высокий показатель относительного роста населения в мире). Рост в Европе относительно низкий.
Как и любая хорошая диаграмма, эта вызывает новые вопросы и побуждает к дальнейшим исследованиям – как с точки зрения идентификации отдельных стран, так и изучения прогнозов будущих тенденций.
Конечно же, существует множество способов представления таких сложных массивов данных, как данные ООН по народонаселению, но ни один из них нельзя считать правильным. Тем не менее Альберто Каиро определил четыре общих признака хорошей визуализации данных.
1. Содержит достоверную информацию.
2. Схема выбрана так, чтобы соответствующие закономерности были заметны.
3. Выглядит привлекательно, при этом внешний вид не мешает правдивости, ясности и глубине.
4. Когда это уместно, способ организации позволяет проводить некоторые исследования.
Для реализации четвертого признака можно, например, позволить аудитории взаимодействовать с визуализацией. Хотя это трудно реализовать в книге, следующий пример покажет силу персонализации графического представления информации.
Как менялась популярность моего имени с течением времени?
Некоторые графики настолько сложны, что невооруженным взглядом трудно заметить интересные закономерности. Посмотрите на рис. 2.9, где каждая линия показывает рейтинг популярности имен мальчиков, родившихся в Англии и Уэльсе между 1905 и 2016 годами[61]. Рисунок отображает замечательную социальную историю, хотя сам по себе всего лишь демонстрирует быстро меняющуюся моду на имена, а уплотнение линий в последние годы говорит о расширении и разнообразии списка имен после середины 1990-х.
Рис. 2.9
Скриншот интерактивной диаграммы, предоставленный Национальным статистическим управлением Великобритании, где показаны тенденции изменения популярности имен мальчиков. Мои лишенные воображения родители дали мне в 1953 году самое популярное на то время имя, но с тех пор оно вышло из моды, в отличие от Оливера. Однако в последние годы имя Дэвид снова демонстрирует некоторые признаки повышения востребованности, возможно, благодаря Дэвиду Бекхэму
Только добавив интерактивность, мы можем выделить линии, представляющие для нас интерес. Например, мне интересен тренд для имени Дэвид, которое было особенно популярно в 1920-х и 1930-х годах, возможно, потому, что Дэвидом звали принца Уэльского (будущего короля Эдуарда VIII)[62]. Но затем оно резко утратило популярность – и если в 1953 году я был одним из десятков тысяч Дэвидов, то в 2016-м этим именем назвали всего 1461 ребенка, при этом больше сорока имен оказались гораздо популярнее.
Коммуникация
В этой главе мы старались обобщить и обнародовать данные открытым неманипулятивным способом, чтобы избежать влияния на эмоции и отношение аудитории и не навязывать ей определенную точку зрения. Мы просто хотим рассказать все как есть или по крайней мере как должно быть. Хотя мы не вправе претендовать на то, что излагаем абсолютную истину, мы пытались быть максимально правдивыми.
Конечно, о такой научной объективности проще говорить, чем реализовывать на практике. Когда в 1834 году Чарльз Бэббидж, Томас Мальтус и другие ученые создали Лондонское статистическое общество (впоследствии Королевское статистическое общество), они помпезно заявили, что «статистическое общество будет считать первым важнейшим правилом своей деятельности тщательное исключение всех частных мнений из своих протоколов и публикаций и основываться исключительно на фактах, причем – насколько это вообще возможно – на тех, которые могут быть записаны в численном виде и зафиксированы в таблицах»[63]. Увы, на это ограничение никто не обращал внимания с самого начала: авторы работ стали вставлять свои мнения о данных относительно преступлений, здоровья и экономики и советовать, что с этим делать. Возможно, лучшее, что мы можем сейчас, – признать это искушение и всячески стараться держать свое мнение при себе.
Первое правило коммуникации – закрыть рот и слушать, чтобы лучше познакомиться с аудиторией, будь то политики, профессионалы или широкие массы. Мы должны понимать их неизбежные ограничения и любые возможные недоразумения и бороться с искушением казаться слишком умными или чрезмерно вдаваться в детали.