Компании, выбравшие первый и четвертый варианты ответов, считались лидерами и аутсайдерами отрасли соответственно. Что интересно, от аутсайдеров компании-лидеры отличались следующим:
• в пять раз чаще использовали аналитику;
• в три раза чаще использовали продвинутую аналитику;
• в два раза чаще использовали аналитику для управления своей операционной деятельностью;
• в два раза чаще использовали аналитику для составления стратегий будущего развития.
Несомненно, есть факторы, осложняющие эту методологию. Во-первых, так называемая ошибка выжившего[20]. Во-вторых, корреляция между успешностью компании и ее размером (насколько известно, выручка компаний, участвовавших в опросе, была в диапазоне от менее 500 млн до более чем 10 млрд долл.). Возможно, только у более крупных и более успешных организаций имелось достаточно ресурсов на создание и обеспечение функций аналитических отделов, способных на разработку моделей для имитационного моделирования цепочки поставок. Тем не менее все пришли к единому мнению, что более качественная и глубокая аналитика повышает ценность бизнеса.
Авторы исследования выделили три уровня аналитических возможностей: желательный, опытный, преобразованный. Их краткие характеристики приведены в табл. 1.3.
Таблица 1.3. Уровни аналитических возможностей: желательный, опытный, преобразованный
Источник: взято и изменено: http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/
От организаций, находящихся на желательном уровне, организации, находящиеся на преобразованном уровне, отличаются тем, что в них:
• в четыре раза выше вероятность качественного отбора информации;
• в девять раз выше вероятность качественной обработки информации;
• в восемь раз выше вероятность качественного анализа;
• в десять раз выше вероятность качественного распространения информации;
• на 63 % чаще используют централизованные аналитические отделы в качестве основного источника аналитических данных (об аналитических организационных структурах речь пойдет в главе 4).
Конечно, в этом случае также наблюдается сложное взаимодействие между причинами и следствием, но взаимосвязь между конкурентным положением компании на рынке относительно других игроков и уровнем аналитической работы, проводящейся в ней, очевидна.
Так что же тогда мешает компаниям активно применять аналитические инструменты? Два из трех наиболее распространенных ответов на этот вопрос — недостаток понимания, как использовать аналитические данные, и недостаток навыков аналитической работы внутри компании (см. рис. 1.5).
Рис. 1.5. Ответы на вопрос «Что становится основным препятствием для активного использования информации и аналитических данных в вашей компании?»
В этих ответах перечислены причины, с которыми может справиться любой специалист-аналитик. Например, аналитики могут помочь сотрудникам «прокачать» необходимые навыки, и они сами могут более активно доносить ценность аналитической работы до руководителей. Они могут проводить больше исследований и приводить практические примеры, как другим компаниям удалось справиться с похожими трудностями в бизнесе при помощи аналитики. Руководители специалистов по сбору и обработке данных могут выделить ресурсы на улучшение качества данных, чтобы они ни у кого не вызывали сомнения. Руководители высшего звена могут стимулировать увеличение обмена данными внутри компании, а также отдельно назначить человека, отвечающего за это направление, например CAO или CDO (подробнее об этом в главе 11). В этом процессе каждый играет свою роль.
Краткий обзор
На всех этих аспектах мы остановимся подробнее в следующих главах. Во-первых, мы изучим сырые и агрегированные данные и их качество (глава 2 и глава 3). Затем перейдем к аналитическим структурам: какими могут быть специалисты по аналитической работе, какими навыками они должны обладать, как должен быть организован аналитический отдел (глава 4). Мы остановимся на аспектах анализа данных (глава 5), разработки показателей (глава 6) и рассказывании историй с помощью данных (глава 7). В главе 8 речь пойдет о A/B-тестировании. Мы поговорим о корпоративной культуре и процессе принятия решений, которые представляют собой важные признаки компании с управлением на основе данных (глава 9 и глава 10). Мы покажем, что изменения в корпоративной культуре и оперативном управлении возможны только благодаря руководителям, которые используют в своей работе принципы управления на основе данных. В частности, мы поговорим о трех новых управленческих позициях: CDO, Chief Digital Officer[21] (директор по цифровым технологиям) и CAO (глава 11). Глава 12 будет посвящена вопросам этики и тому, как компания, уважающая персональные данные, может ограничить их использование. В конце мы дадим общее заключение.
Глава 2. Качество данных
80 % времени я трачу на очистку данных. Качественные данные всегда выигрывают у качественных моделей.
* * *
Данные — это фундамент, на котором держится компания с управлением на основе данных.
Если люди, принимающие решения, не располагают своевременной, релевантной и достоверной информацией, у них не остается другого выхода, как только положиться на собственную интуицию. Качество данных — ключевой аспект.
В этой главе понятие «качество» употребляется в самом широком смысле и рассматривается преимущественно с точки зрения аналитической работы.
Специалистам-аналитикам нужны правильные данные, собранные правильным образом и в правильной форме, в правильном месте, в правильное время. (Они просят совсем не много.) Если какое-то из этих требований не выполнено или выполнено недостаточно хорошо, у аналитиков сужается круг вопросов, на которые они способны дать ответ, а также снижается качество выводов, которые они могут сделать на основании данных.
Эта и следующая главы посвящены обширной теме качества данных. Во-первых, мы обсудим, как обеспечить правильность процесса сбора данных. С этой точки зрения качество данных выражается в их точности, своевременности, взаимосвязанности и так далее. Затем, в следующей главе, мы поговорим о том, как убедиться, что мы собираем правильные данные. С этой точки зрения качество выражается в выборе оптимальных источников данных, чтобы обеспечить максимально эффективные выводы. Иными словами, мы начнем с того, как правильно собирать данные, и перейдем к тому, как собирать правильные данные.
В этой главе мы сосредоточимся на способах определения достоверности данных и рассмотрим случаи, когда данные могут оказаться ненадежными. Для начала разберем критерии качества — все характеристики чистых данных. Затем рассмотрим самые разные факторы, влияющие на ухудшение качества. Этой теме мы уделим особое внимание по ряду причин. Во-первых, подобных факторов может быть великое множество, и они носят практический, а не теоретический характер. Если вам доводилось работать с данными, то, скорее всего, вы сталкивались с большинством из них. Они неотъемлемая часть нашей реальности и возникают гораздо чаще, чем нам бы того хотелось. Именно поэтому у большинства специалистов по работе с данными подавляющая часть рабочего времени уходит на очистку. Более того, вероятность возникновения этих факторов повышается с увеличением объема данных. Мой бывший коллега Самер Масри однажды заметил: «При работе с большими масштабами данных всегда помните, что вещи, которые случаются “один раз на миллион”, могут произойти в каждую секунду!» Во-вторых (и, возможно, это даже важнее), активная проверка и сохранение качества данных — совместная обязанность всех сотрудников. Каждый участник аналитической цепочки ценности должен следить за качеством данных. Таким образом, каждому участнику будет полезно на более глубоком уровне разбираться в этом вопросе.
Итак, учитывая все сказанное, давайте рассмотрим, что означает качество данных.
Аспекты качества данных
Качество данных невозможно свести к одной цифре. Качество — это не 5 или 32. Причина в том, что это понятие охватывает целый ряд аспектов, или направлений. Соответственно, начинают выделять уровни качества, при которых одни аспекты оказываются более серьезными, чем другие. Важность этих аспектов зависит от контекста анализа, который должен быть выполнен с этими данными. Например, если в базе данных с адресами клиентов везде указаны коды штатов, но иногда пропущены почтовые индексы, то отсутствие данных по почтовым индексам может стать серьезной проблемой, если вы планировали построить анализ на основе показателя почтового индекса, но никак не повлияет на анализ, если вы решили проводить его на уровне показателя по штатам.
Итак, качество данных определяется несколькими аспектами. Данные должны отвечать ряду требований.
Доступность
У аналитика должен быть доступ к данным. Это предполагает не только разрешение на их получение, но также наличие соответствующих инструментов, обеспечивающих возможность их использовать и анализировать. Например, в файле дампа памяти SQL (Structured Query Language — языка структурированных запросов при работе с базой данных) содержится информация, которая может потребоваться аналитику, но не в той форме, в которой он сможет ее использовать. Для работы с этими данными они должны быть представлены в работающей базе данных или в инструментах бизнес-аналитики (подключенных к этой базе данных).