2. В массовости данных также нет ничего нового — еще в 1924 году у Евгенического учетного бюро в Колд-Спринг-Харбор было более 750 000 записей, описывающих «врожденные физические, умственные и темпераментные свойства» американских семей3. Или же другой пример — применение больших данных в спорте. Много говорят о том, что победа профессиональной спортивной команды сегодня — это во многом победа стоящей за ее спиной команды математиков4. Анализ игры, поведения соперников, многочисленных разнообразных показателей позволяет спортсменам существенно улучшить результат и добиться успеха. Впрочем, подобные методы в большом спорте применялись в Советском Союзе как минимум с семидесятых годов прошлого века5.
Можно привести еще много примеров того, как накопленное количество информации, ее разнообразие и скорость обработки в один момент позволяли извлекать из нее новые качественные свойства. Периодическое перетекание количества в качество есть свойство информации.
Невозможно сказать, когда точно заканчиваются «малые» данные и начинаются «большие». В некоторых отраслях, где ранее невозможно было без огромного труда собрать и записать данные, теперь благодаря современным технологиям такая возможность появилась, а их даже относительно небольшой объем порой дает потрясающий результат и описывается в публикациях и статьях в качестве примера использования технологии «больших данных». В иных же сферах объем может исчисляться терабайтами и миллиардами записей — и также хранить в себе скрытые качества. Но даже это не значит, что революция больших данных для них уже пройдена: дальнейший рост объемов, вариативности и возможностей по обработке данных рано или поздно откроет их владельцам новые полезные факты, не очевидные при анализе данных меньшего количества. Например, внедрение банком HSBC системы анализа хранящихся у него больших данных (денежных транзакций, геоданных, поведения клиентов и т.д.) за первые же две недели выявил криминальные группы и мошеннические схемы более чем на 10 миллионов долларов6.
Как уже говорилось, это является лишь этапом перетекания количества информации в качество — с увеличением объема данных (а также их количества, вариативности, точности, скорости обработки) из них можно будет извлекать все больше новой информации. В какой-то момент «большие данные» могут стать «очень большими данными», а потом «очень-очень большими» и так далее — их «размер» ограничивают лишь возможности сбора и обработки, определенные рамками технологического прогресса той или иной исторической эпохи.
В наше время созрели материальные предпосылки для целой революции больших данных. Кардинально сократилось историческое время, требуемое для перехода количества информации в качество. Революция больших данных, начавшаяся на наших глазах, состоит из множества качественных скачков перетекания «малых данных» в «большие» (а тех, что уже «большие», рано или поздно в «очень большие» и так далее) и приобретения ими новых полезных качеств. Говоря о трактовке определения больших данных, современных людей иногда сравнивают с индейцами племени пихара, живущих в лесах Бразилии. Они используют всего три числительных: одно означает «один-два», другое — «несколько», а третье — «много» или «гораздо больше».
Прежде чем приступить к описанию материальных предпосылок начавшейся революции, объясняющих данный феномен, и приводить конкретные примеры использования больших данных, отметим еще кое-что.
Революция больших данных в способах производства тесно связана с четвертой технологической революцией, о которой сейчас активно пишут многие экономисты и на пороге которой, судя по всему, уже стоит человечество. Первые три произошли в результате массового использования техники в производстве, изобретения парового двигателя и машинных способов генерации энергии, появления компьютеров. Обычно, говоря о новой технологической революции, в первую очередь подразумевают развитие искусственного интеллекта и роботизации экономики, способной в ближайшие годы заменить десятки традиционных профессий. В свою очередь искусственный интеллект очень близок с большими данными, поскольку он обучается, анализируя и интерпретируя данные. Позже мы постараемся доказать, что именно данные и феномен информации являются основной составляющей в процессе изменения типа производства и именно их нужно рассматривать в качестве главного элемента четвертой технологической революции.
Более того, как мы увидим во второй и третьей главе, начавшаяся революция в скором времени принесет человечеству новые возможности коммуникации подобно тем, какие однажды подарили нам книгопечатание, телефон или Интернет. Такие кардинальные изменения в средствах передачи информации, каждый раз изменявшие общество и ход истории до неузнаваемости, получили название информационных революций.
Таким образом, революция больших данных, заключающаяся в безостановочном перетекании количества (вариативности, валидности, скорости получения и обработки)
данных в качество, при котором они приобретают новые полезные свойства, несет в себе изменения для общества, включающие в себя одновременно технологическую и информационную революцию. А значит, вероятно, приведет к изменению производственных отношений и всей нашей жизни. Подобно тому, как в разные исторические периоды на смену аграрному производству приходила индустриализация, а позже научнотехническая революция, сегодня владение большими данными постепенно становится ведущим фактором развития экономики. Разберемся с этим поподробнее.
Материальные предпосылки революции
Рассмотрим, благодаря чему революция больших данных началась и почему не прервется в ближайшие десятилетия. В ее основе лежат три фактора.
Первый — это стремительная датификация, то есть резкое изменение объемов получаемой и хранимой человечеством информации. Под датификацией в целом понимается представление процессов жизнедеятельности и окружающего нас мира в виде данных, будь то исписанные глиняные таблички, книги, граммофонные пластинки или современные цифровые носители. Конечно, резкий рост объемов датификации во второй половине двадцатого века связан с изобретением первых компьютеров и цифрового способа хранения и обмена информации. Уже в 2002 году объем цифровых данных, накопленных в мире, превысил объем данных на аналоговых носителях. При этом датификацию неправильно отождествлять с цифровизацией, поскольку это более широкий процесс описания окружающего мира языком эмпирических данных. Например, алгоритмы современных нейронных сетей позволяют анализировать изображения и описывать их содержание, рассматривать цифровые изображения как данные или анализировать миллионы сообщений в социальных сетях, обобщая их совокупность в виде данных, то есть как бы датифицировать уже существующую цифровую информацию, извлечь из нее новые показатели.
Многие еще помнят дискеты, распространенные в конце двадцатого века и вмещающие до 3 мегабайт, а бортовой компьютер современного автомобиля с автопилотом обрабатывает до гигабайта данных в секунду7. Широкое развитие Интернета, компьютеров и смартфонов, ежедневно создающих и передающих огромные массивы информации, не позволяет процессу датификации замедлиться, а, наоборот, с каждым годом увеличивает его темпы.
Наиболее датифицированной сферой общественной жизни сейчас является поведение человека в Интернете, где действия каждого пользователя сохраняются, соотносятся с другими данными и анализируются — в первую очередь для предоставления релевантной рекламы, уже невозможной в наши дни без больших данных. Датификация распространяется и на остальной мир — перемещения, покупки, датчики в автомобилях, умная бытовая техника и многое другое. Ежедневно мы создаем и взаимодействуем с огромным количеством данных. Это при том, что период активной датификации только начался и пока что затрагивает далеко не все аспекты нашей жизни. Процесс датификации все новых сфер окружающего мира неумолимо продолжается. Если в 2018 году весь объем хранимой человечеством цифровой информации был равен чуть более 20 зеттабайтам,
то уже к 2025 году он вырастет более чем в 8 раз и достигнет 160 зеттабайт8. Датификация производства или любой другой сферы жизнедеятельности позволяет обрабатывать полученную информацию в системе больших данных — извлекать прибыль, упрощать некоторые процессы, лечить людей, обманывать их... Все мы плаваем в море данных, и с каждым годом это море становится все больше. Именно датификация по-своему является основным локомотивом революции больших данных, каким в начале ХХ века была электрификация, позволяющая существенно увеличить производительность труда и облегчить жизнь человека. Кстати, второй по величине производитель программного обеспечения, корпорация Oracle, так и назвала большие данные: «Электричество двадцать первого века — новый вид энергии, которая трансформирует все, к чему прикасается, в бизнесе, правительстве и в личной жизни»9.
Источник: IDC's Data Age 2025 study, sponsored by Seagate, April 2017
Вторым фактором революционных изменений является рост вычислительной мощности компьютеров. Давид Хаус из Intel, анализируя рост количества транзисторов
и увеличение тактовых частот процессоров, сформулировал закон, в целом продолжающий работать и сегодня, согласно которому производительность процессоров удваивается каждые 18 месяцев.
Кроме того, уже в обозримом будущем прогнозируется внедрение полноценного квантового компьютера10, использующего явления квантовой суперпозиции и квантовой запутанности для обработки данных, что позволит сделать резкий рывок в производительной мощности вычислительной техники. Так, корпорация Google, выпустившая недавно 72-кубитный квантовый процессор, уже заявила, что ее открытия позволяют в самом ближайшем будущем достичь квантового превосходства11.
Третий фактор представляет собой