Вскоре после вывода своей формулы Шеннон указал на сходство Джону фон Нейману, который в то время считался лучшим математиком в мире. Фон Нейман пожал плечами и предложил Шеннону назвать свою меру числа битов, необходимого для передачи единицы информации, информационной энтропией, сославшись на то, что природу термодинамической энтропии тоже никто в полной мере не понимал.
Сходство объясняется тем, что Шеннон думал о такой системе коммуникации, как письменный английский язык, подобно тому как Больцман рассуждал о газе.
Вспомним пример с воздухом на кухне. Если теплота концентрируется в горячих зонах — например, в духовке, — то молекулы там в среднем обладают большей энергией, чем молекулы в остальной части комнаты. Но способов достичь такого распределения энергии гораздо меньше, чем способов распространить энергию по комнате. Следовательно, если открыть дверцу духовки, то теплота со временем рассеется.
Шеннон руководствовался сходной логикой.
Самое длинное слово в нетехническом английском языке — antidisestablishmentarianism (“движение за неотделение церкви от государства”). В нем 28 букв.
Представьте большой круг, пропорциональный по размеру всем бессмысленным буквенным комбинациям, начиная с последовательностей из одной буквы и заканчивая последовательностями из 28 букв. Это эквивалент кухни, где рассеивается теплота.
Рядом с большим кругом находится гораздо более маленький круг, площадь которого пропорциональна количеству реально существующих английских слов. Это эквивалент кухни с горячей зоной.
Чтобы точно передать сообщение на английском языке, ни отправитель, ни получатель не должны выходить за пределы малого круга. Помехи или шум вытолкнут сообщение в большой круг со случайными буквенными последовательностями. Это сродни тому, как теплота рассеивается из горячей зоны, например из духовки, способствуя переходу от маловероятных к более вероятным формам распределения энергии.
Для того чтобы сообщение не искажалось, необходимо принять меры, подобно тому как меры принимаются для противодействия рассеянию теплоты. Во втором случае мы используем изоляционные материалы. В первом — аналогичную технику, которую Шеннон назвал избыточностью. Существуют буквы и слова, которые сами по себе не имеют значения и используются для защиты значения от превращения в шум.
Возьмем такой пример, основанный на одном из примеров Шеннона:
MST PPL HV LTL DFCLTY RDNG THS SNTNC[26]
Оно на двадцать букв короче “верной” орфографии, но значение его от этого не умаляется. По оценке Шеннона, он мог восстановить значение примерно 70 % любого текста, случайным образом удалив из него 50 % букв.
В устной речи также много избыточности. Без таких артиклей, как the и а, часто можно обойтись. В контексте некоторые слова становятся ненужными. Услышав фразу “ураган причинил большой… ”, вы, вероятно, догадаетесь, что следующим словом будет “ущерб”. Влюбленные часто завершают фразы друг друга, потому что знают контекст речи собеседника. При разговоре с незнакомцами, напротив, приходится использовать более длинные фразы, чтобы компенсировать недостаток общего контекста. Любопытно, что человеческие языки, похоже, содержат избыточность в письме и речи, поскольку отдельные фрагменты сообщения легко могут потеряться — например, при разговоре на шумном рынке или попытке общаться с детьми и взрослыми, которые только начали учить новый язык. Мы делаем паузы и прибегаем к повторениям, чтобы сберечь значение слов.
Мы все инстинктивно это понимаем. Мы повышаем и понижаем избыточность своих сообщений в зависимости от числа помех, подобно тому как мы добавляем и убираем дополнительные слои одежды в зависимости от температуры на улице. Отправляя текстовое сообщение, мы уверены, что буквы будут переданы без потерь, а адресат поймет контекст. Это свободный от шумов канал связи, а потому мы убираем множество избыточных букв, например, печатая: “С и Itr at pb”[27].
Порой мы, напротив, добавляем избыточности, страдая от помех на телефонной линии: “МОЯ… ФАМИЛИЯ… ПЕТРОВ. П — Павел, Е — Егор, Т — Тимофей, Р — Роман, О — Олег, В — Владимир”.
Лингвистическая избыточность не позволяет передаваемым идеям превратиться в шум. Подобно тому как часть теплоты теряется при переходе из горячей зоны в холодную, производя работу, часть слов и букв теряется или искажается при передаче сообщения.
Именно знания об информационной энтропии и избыточности позволяют нам строить информационные сети.
Взять, например, такие сервисы, как YouTube и Netflix, которые хранят и распространяют огромные файлы с видеоинформацией. Эти компании сокращают количество битов в таких файлах, чтобы их итоговое число было как можно ближе к их информационной энтропии. Такой процесс называется сжатием, и без него файлы были бы слишком велики для наших сетей. Затем компании, обслуживающие сети, добавляют в сжатые файлы цифровую избыточность, чтобы защитить информацию от шума. Такие дополнительные биты выполняют в изощренной электронной среде такую же функцию, как произнесение слова по буквам с целью обеспечить четкость передачи информации сквозь помехи на телефонной линии.
Информация теряется не только при преодолении расстояний. Значимая информация, как правило, искажается и со временем. Люди давно это поняли. Чернила выцветают, бумага желтеет и рвется, а надписи на глине и камнях подвергаются эрозии. Мы боролись с этим с помощью стойких чернил и прочного пергамента, но даже они гибли при пожарах в библиотеках. Тогда мы стали добавлять избыточность, создавая множество копий текстов, которые считаем важными, и часто даже воспроизводя написанное на разных языках. Авторы Розеттского камня добавили избыточности, написав одно и то же послание на трех языках, и тем самым продемонстрировали, что такая стратегия позволяет передать сообщение на две тысячи лет в будущее. Письменные языки сами по себе представляют пример избыточности, необходимой для долгосрочной защиты информации. Они не добавляют смысла устной речи, а существуют для того, чтобы охранять значение слов на протяжении долгого времени после того, как мозг, родивший их, обратится в прах.
Ученый Рольф Ландауэр описал эту идею фразой “информация материальна”. Все формы информации требуют изменений в физической вселенной. При записи слов необходимо делать пометки на каком-то физическом носителе.
Но даже устная речь предполагает движение голосовых связок, от которого вибрируют молекулы воздуха. Подобным образом мысль требует электрохимических изменений в нейронах нашего мозга. В этом отношении информационная энтропия тесно связана с термодинамической энтропией. При разрушении физических систем разрушается и содержащаяся в них информация. Представьте, что вы написали свое имя на песке на пляже. При этом частицы песка выстроились в маловероятную низкоэнтропийную конфигурацию — в узор, имеющий смысл. Когда набегает волна, этот смысл теряется: частицы песка перемешиваются и складываются в более вероятные, но менее осмысленные конфигурации с высокой энтропией.
Как бы мы ни предпочли записывать информацию, непрерывное повышение энтропии, несомненно, сотрет ее, как волна стирает имя, написанное на песке. Предсказание Уильяма Томсона о тепловой смерти Вселенной распространяется на мысли, слова и воспоминания. Всему настанет конец при одной и той же температуре, все будет забыто.
* * *
В июле 1948 года, когда Шеннон опубликовал свою статью, никто не мог представить, с каким размахом будут применяться его идеи. Никто также не спрашивал, можно ли считать общие черты термодинамической и информационной энтропии случайными или же они представляют собой две стороны одного явления.
Все изменило очередное открытие Лабораторий Белла. 30 июня 1948 года, всего за несколько дней до выхода статьи Шеннона, отдел, специализирующийся на “физике твердого тела”, провел пресс-конференцию в Нью-Йорке. В ходе нее ученые представили странное устройство размером с початок кукурузы, из которого торчало три провода. Рядом также стоял его макет в человеческий рост, чтобы приглашенным журналистам было понятнее, как выглядит демонстрируемый объект.
Новейшим изобретением Лабораторий Белла оказался транзистор. По иронии судьбы ни один из вариантов применения транзистора, перечисленных на той важнейшей из технологических презентаций, не показал его самого полезного свойства. Вместо этого инженеры Лабораторий Белла представили транзистор как более компактную и надежную замену электронной лампы, то есть как устройство для усиления аналоговых сигналов. Чтобы продемонстрировать эту функцию, каждому из присутствующих выдали наушники, в которых они слушали усиленные транзистором голоса, обеспечиваемый транзистором радиоэфир и производимый транзистором свист. На конференции почти не говорили о том, что транзистор также может выступать в качестве крошечного энергосберегающего двухпозиционного переключателя. Иными словами, что он прекрасно подходит для работы с вопросами, предполагающими ответы “да” и “нет”, и раскрытия возможностей бита.
Когда это стало очевидно, инженеры сосредоточили усилия на миниатюризации транзисторов, в результате чего размеры транзисторов стали экспоненциально уменьшаться, а их количество — экспоненциально расти. В современных микрочипах используется до 20 млрд транзисторов, которые занимают столько же места, сколько занимал единственный первый транзистор, а это значит, что диаметр каждого отдельного транзистора сегодня составляет около одной миллионной миллиметра. По одной оценке, с момента изобретения технологии до 2014 года было произведено около 3 секстиллионов транзисторов — это число записывается как тройка с 21 нулем. Для сравнения можно сказать, что в галактике Млечный Путь всего 200 миллиардов звезд, а это двойка с 11 нулями. Каждый из этих транзисторов ежесекундно отвечает “да” или “нет” на миллиарды, если не триллионы, вопросов, чтобы мы могли получать нужные сведения, оскорблять друг друга, развлекаться, общаться и совершать любые другие действия с информацией.