Карл Маркс и большие данные — страница 7 из 46

- способность предложить новые типы фактов;

- предоставление самых правдивых фактов;

- возможность проводить многочисленные причинно-следственные эксперименты;

- возможность рассматривать самые мелкие подмножества людских сообществ.

Недостатком или, скорее, особенностью применения технологии анализа больших данных является то, что, с одной стороны, она позволяет дать ответы на самые трудные вопросы и показать скрытую информацию, а с другой, часто существует сложность в объяснении причин выявления той или иной полученной информации. Проще говоря, анализ больших данных в нынешних условиях (с существующими компьютерами и алгоритмами) в основном отвечает на вопрос «что?», но не «почему?». Это, кстати, стало одной из причин отказа китайских властей от массового использования системы борьбы с коррупцией Zero Trust: алгоритм крайне эффективно находил коррупционеров, но не мог объяснить или доказать их причастность к экономическим преступлениям25.

Сегодня мы находимся лишь на заре новой революции. Многочисленные примеры эффективного использования больших данных имеются еще как минимум с начала ХХ века, но задача получения максимально быстрого и точного ответа на поставленные вопросы диктует мировой экономике и обществу необходимость массового внедрения современных технологий — в первую очередь систем сбора и обработки данных, получения максимально быстрого и точного ответа на поставленные вопросы.

Вместе с тем в наши дни обработка больших данных сопряжена с огромным количеством сложностей. Для того чтобы в наши дни найти ответ на любой поставленный вопрос, в подавляющем большинстве случаев не хватает данных, представляющих различные аспекты исследуемого предмета. Датификация по-прежнему охватывает лишь определенную, не столь значительную часть нашей жизни. Когда же набирается большой объем данных, из них порой становится еще сложнее выделить релевантные значения, отсеяв малозначимые сведения. В итоге решение принимается на основе лишь малой толики реально существующей информации. Ошибки датчиков или других инструментов сбора данных могут остаться незамеченными и испортить целые информационные системы. Наконец, существует проблема ложных корреляций, когда найденные закономерности не всегда могут говорить о реальности взаимосвязей между предметами (вроде корреляции между ежегодным количеством фильмов с Томом Хэнксом и жертв транспортных происшествий), что ставит под угрозу целесообразность всех принятых на основе анализа больших данных решений.

Строительство железных дорог в свое время также проходило с большими трудностями: скептики могли считать, что пройдет год-другой и люди бросят прокладку дорогущих рельсов протяженностью тысячи километров и вернутся к старым добрым лошадям. Однако эффективность новых технологий, огромные прибыли и само время неминуемо ломали старые каноны, изменяя привычный уклад жизни каждого человека до неузнаваемости. В области обработки больших данных прогресс мчится вперед с огромной скоростью, возможно, опережая наше о нем представление. Всего десять лет назад сам термин big data встречался в основном в узкоспециализированной литературе (и в другом значении), тогда как сегодня подобный подход к получению информации и связанные с ним возможности развития экономики и общества вызывают все больший интерес и широко обсуждаются. Совсем недавно обработка больших данных казалась сложным процессом, доступным лишь серьезным ученым и крупным компаниям, а в наши дни уже создан широкий общедоступный инструментарий, позволяющий любому человеку освоить азы работы с большими данными, собирать данные, извлекать из них информацию для продажи или личной пользы. Информационные корпорации вроде Google создают общедоступные интерфейсы, предоставляющие пользователям конечную информацию как результат обработки больших данных (например Google Trends, Correl и т.д.).

Новорожденный ребенок, открывая глаза, получает огромное количество новой информации; для выработки системы ее обработки уходят дни, пока он не научится в полной мере пользоваться новым инструментарием. Так же и человек, получивший доступ к большим данным и компьютеру, еще не в полной мере может разобраться в них, однако с каждым годом их обработка и анализ становятся возможны все более широкому кругу, а инструментарий постоянно упрощается.

Мы можем представить, как в недалеком будущем с развитием технологий и общедоступных инструментов обработки данных человек сможет взглянуть на предмет и сразу получить ответ на многие вопросы, сегодня кажущиеся нам нерешаемыми.


Человек и большие данные


Как знание о бездушном предмете или процессе позволяет угадывать его дальнейшие изменения и развитие, так и простое знание индивида позволяет предугадывать и управлять его поведением. «Алгоритмы знают вас лучше, чем вы знаете сами себя», — говорит Ксавье Аматриэн, бывший специалист по сбору данных в Netflix. Знание модели человеческого поведения, сильных и слабых сторон индивида, о которых он сам, вероятно, и не догадывается, дает возможность не только высвободить его скрытый потенциал, рационализировать и улучшить его жизнь, но и открывает обратные возможности — незаметно для него самого манипулировать человеком, заставлять делать вещи, противоречащие его интересам, зарабатывать меньше, тратя на работу больше времени, провоцировать на покупку зачастую не нужных ему товаров и так далее.

Большие данные позволяют предсказывать поведение людей лучше, чем когда-либо. Взрослый человек, обладающий богатым жизненным опытом (и гораздо большими, чем у детей, данными в голове), может легко предугадывать поведение ребенка, направлять и учить его, или же без труда обмануть, обидеть. В новую эпоху мы, взрослые люди, не владеющие большими данными о нас и о социуме, ежедневно получаемые агрегаторами крупных корпораций и государств, по сути становимся для них такими же управляемыми детьми.

Современные компьютерные игры, социальные сети, мобильные приложения, контекстная реклама — все это использует большие данные для извлечения из человека максимальной прибыли, заставляя его уделять больше времени их продукту. Владельцы больших данных и ресурсов для их обработки используют их возможности самостоятельно, другие вынуждены покупать результаты обработки у корпораций вроде Google или Facebook и платить маркетинговым или информационным компаниям за их внедрение.

Часто приводимым примером ценовой дискриминации является использование больших данных в крупных казино. Изучая особенности своих клиентов на основе анализа больших данных, владельцы казино знают, когда вовремя вывести игрока из игры (например, предложением бесплатного обеда), чтобы он не проиграл слишком много своих денег и вернулся в казино опять, в сумме принеся заведению еще большую прибыль, оставаясь при этом его постоянным клиентом26. Вышедший в 2014 году на Всемирном форуме, посвященном приватности, доклад27 описывает то, как компании, собирая большие данные о поведении американцев, в результате их обработки формируют потребительские профили, позволяющие понять, сколько каждый конкретный гражданин готов заплатить за тот или иной товар, характеристику его покупательной способности — извлекать из каждого человека максимальную прибыль, используя созданные им же самим данные.

Другим примером применения больших данных в погоне за прибылью является их использование при составлении расписания работников. Основанный на статистических моделях анализ данных, включающий множество факторов вроде исторических тенденций продаж, интересов клиентов, прогноза погоды, наличия товаров, дает возможность компаниям в режиме реального времени планировать деятельность своих сотрудников вплоть до минуты. Рабочие смены разбиты на пятнадцатиминутные блоки и пересматриваются каждый день, чтобы гарантировать достаточное количество работников для удовлетворения предполагаемого спроса. Корпорации усиливают эксплуатацию труда, сокращают часы, одновременно увеличивая интенсивность работы, выполняемой их сотрудниками28,29. Как здесь не вспомнить Маркса, в свое время описавшего машину как «средство производства прибавочной стоимости»30. Другими словами, в условиях капитализма достижение прогресса никоим образом не нацелено на уменьшение трудовых усилий рабочих, а напротив, ставит задачу оптимизации их эксплуатации. Маркс описывает эту функцию «системы машин» в тринадцатой главе «Капитала», где подразделил ее на три составляющих: присвоение капиталом добавочных рабочих сил, удлинение рабочего дня и интенсификация труда.

Нужно понимать, что глобальная датификация характеристик и жизни индивида, ее моментальная обработка в системе больших данных позволяют дополнить картину, открыть те стороны человеческой жизни, которые пока что нельзя записать в виде цифровых показателей. Например, далеко не факт, что наука в обозримом будущем сумеет датифицировать человеческие мысли до такого уровня, чтобы их можно было прочитать и сохранить. Однако фиксация и перевод в цифру изображений с камеры в общественном месте или на личном телефоне, анализ эмоций на лице человека, ритм его сердцебиения, скорость движения его курсора мышки в Интернете и другие факторы рано или поздно позволят предугадывать поведение индивида не хуже, чем прочтение его мыслей. Что уж тут говорить, если даже сам Марк Цукерберг, опасаясь за неприкосновенность своей частной жизни, заклеивает камеру и микрофон на своем ноутбуке. Эта же особенность больших данных уже поставила под сомнение возможность пользовательской анонимности в перспективе, сделав ее математически невозможной. Современные алгоритмы позволяют даже по мельчайшим крохам данных воссоздать недостающую информацию о человеке. Владельцы больших данных теперь могут узнать всё не только о тех, кто предоставляет им свои данные, но и о тех, кто не контактирует с ними или специально скрывает производимую им информацию.

Профессор Массачусетского технического университета и один из ведущих мировых специалистов в области больших данных Алекс Пентленд, на чьи работы мы еще не раз будем ссылаться, последние десятилетия вместе со своими учениками опубликовал массу трудов с экспериментами над людьми в области изучения больших данных. Одним из распространенных типов его исследований являются так называемые «живые лаборатории». Данный подход во многом сводится к опережающей датификации исследуемой группы при помощи специальных устройств вроде запрограммированных смартфонов, датчиков, социометрических бейджей. «Представьте, что можно поместить целое сообщество в комнату с камерами слежения, а затем описать и отобразить все грани и ракурсы поведения, общения и социального взаимодействия между участниками. Теперь представьте, что этот эксперимент длится в течение нескольких лет, пока члены сообщества живут своей повседневной жизнью. Это и есть живая лаборатория», — пишет Пентленд