Виртуальный ты. Как создание цифровых близнецов изменит будущее человечества — страница 8 из 61


Рисунок 8. Рибосома (Венки Рамакришнан, Mrc LMB)


Подобные детальные исследования показывают, что перевод генетических данных в белок – сложное явление. Этот процесс, известный как экспрессия генов, начинается с того, что информация, содержащаяся в генах (ДНК), превращается в информационную РНК (которая также состоит из четырех «букв» – химических веществ, называемых основаниями – на основе инструкций в ДНК, хотя в РНК основание урацил U заменяет тимин Т). Рибосома, как перфолента, считывает по три буквы информационной РНК и сопоставляет ее с тремя буквами транспортной РНК, выстраивая аминокислоты, которые они несут, в правильном порядке, а затем сшивает их вместе. В целом рибосома пропускает через свое ядро насыщенные аминокислотами РНК со скоростью 15 раз в секунду, связывая их вместе в белки[63].

Однако критически важно то, что в итоговой конфигурации, принимаемой белком, ключевую роль снова играет окружающая среда. Гуннар фон Хейне из Стокгольмского университета рассказал нам, как рибосома помогает придавать белкам форму. Этот процесс, известный как котрансляционное сворачивание, начинается в выходном туннеле этой великой молекулярной машины, в которой есть укромные уголки и щели[64]. Притяжения и изменения обеспечиваются стыковочными участками в выходном туннеле, которые прикрепляются к определенным частям зарождающихся белков, в зависимости от последовательности аминокислот[65]. Существуют также белки-шапероны, которые помогают многим белкам принимать форму. Несколько разных шаперонов скрываются в устье выходного туннеля, остальные – за пределами рибосомы. Различные механизмы контроля качества отторгают и разрушают неправильно свернутые белки, прежде чем они достигнут гудящего химического хаоса клетки.

В целом от одномерного кода к трехмерному белковому строительному блоку тела нас ведет поразительно сложная серия шагов. Тем не менее во время своей речи на вручении Нобелевской премии по химии 1972 г. Кристиан Анфинсен сделал смелое заявление, постулировав, что аминокислотная последовательность белка должна полностью определять его структуру в растворе. Это предположение стало грандиозным вызовом биологии: можем ли мы определить трехмерную структуру белка по его одномерной аминокислотной последовательности?

Масштаб этой проблемы обрисовал Сайрус Левинталь, американский молекулярный биолог, который был пионером в компьютерном графическом отображении белковых структур. Он отметил, что для определения вероятных конфигураций типичного белка путем грубого расчета (то есть путем тестирования каждой возможной формы, которую он может принять) потребуется больше времени, чем возраст известной Вселенной. Левинталь подсчитал, что существует 10300 возможных конформаций типичного белка, и почти парадоксально, что клетка может «разработать» функциональную версию гораздо быстрее, чем компьютер. Однако в четвертой главе мы описываем, как ИИ догнал клеточную реальность. Когда дело доходит до виртуального человека, этот подвиг может дать много подсказок (например, когда белки принимают неправильную форму, вызывающую болезнь) и помочь провести виртуальные испытания лекарств для поиска возможных методов лечения.

Колоссальный объем данных

Мы живем в эпоху того, что некоторые называют большими данными. Однако, когда дело касается медицины и биологии, большие данные на самом деле крошечны по сравнению со сложностью клетки, ткани или органа. Более того, у живых существ все эти данные постоянно меняются. Специалисты по данным любят говорить о «трех V»: объем (volume) – количество данных; разнообразие (variety) – сложность данных и источников, из которых они собираются; скорость (velocity) – скорость потока данных и информации. Сегодня скорость, разнообразие и объем данных кажутся ошеломляющими, хотя нам еще очень далеко до того, чтобы охватить всю сложность человеческого тела.

Другие говорят о достоверности (veracity) данных, которая тоже меняется. Большинство традиционных данных являются структурированными, то есть достаточно аккуратными, чтобы их можно было напрямую вставлять в электронные таблицы и базы данных. Представьте себе лабораторный блокнот, в котором в одном столбце указана одна величина, скажем, цвет реагентов в пробирке, а в другом – pH или число потомков в популяции кроликов, выстроенное по времени.

Когда дело доходит до создания виртуального двойника, существуют всевозможные структурированные наборы данных о пациентах, которые собираются регулярно в виде результатов замера температуры, анализов крови и мочи. Генетические данные становятся все более обширными, поскольку стоимость секвенирования нашей ДНК резко упала. На молекулярном уровне существует геометрическая информация о форме участков белков, где взаимодействуют другие молекулы, а также скалярные и векторные поля, используемые математиками и учеными для демонстрации изменяющихся величин – например, концентрации биохимического вещества в клетке. С помощью протеомики можно получить информацию о белках, а с помощью метаболомики – о метаболизме. Несколько рождественских праздников назад Роджер самоотверженно работал с командой Имперского колледжа Лондона над изучением метаболического воздействия похмелья[66]. Эти страдания, по-видимому, связаны с необычным профилем сахароподобных молекул и спиртов – полиолов, которые играют роль в обезвоживании[67].

Но теперь мы вступили в эпоху неструктурированных данных, поскольку Интернет с помощью микрочипа оцифровывает все и вся, от твитов и СМС до сообщений в социальных сетях и загрузок на видеохостингах. По всему миру данные вытекают из датчиков, мобильных телефонов, приложений и вообще всего, что только можно себе представить, поскольку чипы встраиваются в обычные предметы домашнего обихода, от принтеров до холодильников, образуя так называемый интернет вещей.

Смартфоны и другие беспроводные устройства все чаще будут использоваться для сбора данных о пациентах – например, о движении, характере активности, артериальном давлении, частоте сердечных сокращений, исходящих и входящих звонках, использовании клавиатуры и обработке естественного языка – для цифрового фенотипирования, которое, в свою очередь, может использоваться для мониторинга биполярного расстройства, выявления проблем с употреблением алкоголя или распознавания дистресса[68]. Хотя диагноз психического здоровья когда-то был чисто субъективным, сегодня его можно сделать объективным с помощью огромного количества личных данных об активности и манере речи, тоне и дыхании – от смеха до вздохов.

В долгосрочной перспективе, по словам нашей коллеги из UCL Андреа Таунсенд-Николсон, точные и структурированные данные медицинского сообщества будут откалиброваны таким образом, чтобы сравнивать разных людей, в то время как мы будем использовать неструктурированные данные и «журналы жизни» со смартфонов и других устройств для тонкой настройки внешнего вида и поведения виртуального тебя.


Рисунок 9. Подробная анатомическая модель высокого разрешения, созданная на основе данных магнитно-резонансной томографии (IT’IS Foundation)


Целостность данных

Когда цифровые двойники будут созданы, каждый из них станет символом симбиотических отношений между человеком и его виртуальным собой, питающих друг друга данными и идеями. Возникнут практические вопросы, многие из которых уже нам знакомы. Некоторые ученые приходятся данным ненадежными хранителями, хотя все больше им поклоняются. Исследования, появляющиеся в журналах, ограничиваются выводами или резюме ключевых результатов, или же в них преобладают экперименты, которые дали обнадеживающие результаты, а остальные спокойно игнорируются и остаются неопубликованными. Необработанные данные, включая отрицательные данные неудачных экспериментов, часто опускаются и теряются для научного сообщества, а также для будущих исследователей. К счастью, сейчас ситуация начинает меняться.

Некоторые опасаются, что данные будут потеряны для будущих поколений из-за использования эфемерных носителей записи, устройств хранения данных, которые скоро устареют, и программного обеспечения, разработанного компаниями, чьи бизнес-модели зависят от запланированного устаревания и обязательных обновлений. Рассматривается множество решений: от публичных архивов до использования носителя информации, существующего уже миллиарды лет: один грамм ДНК способен хранить 215 петабайт (215 миллионов гигабайт), поэтому контейнер весом и размером примерно с пару пикапов в теории мог бы хранить все данные, когда-либо записанные человечеством[69].

Действовать нужно последовательно, создавая уверенность, что разные ученые и инженеры в разных лабораториях смогут измерять одни и те же вещи, использовать один и тот же жаргон и сообщать о своих открытиях таким образом, чтобы их могли интерпретировать все, гарантируя воспроизводимость науки. Стоит попросить у исследователя материалы, и нередко с другой стороны ждут всевозможные проволочки, молчание или даже отказ. Иногда у них просто нет времени, денег, возможностей или желания (например, если необходимо менять форматы программного обеспечения). В каких-то случаях мешают эго, соперничество и эмоции – да, даже в научных дисциплинах, якобы основанных на объективности и разуме[70].

Есть противоречия, которые необходимо понимать. Всегда существует компромисс между поощрением широкого использования данных и методов, с одной стороны, и коммерциализацией – с другой, и не в последнюю очередь это использование патентов для защиты идей и получения дохода. Более того, исследователи неохотно делятся своими новаторскими данными, если они рискуют стать не первыми, кто опубликует важные результаты и идеи, содержащиеся в этих данных. Не получив признания за понимание данных, которые они с таким трудом собирали, исследователи могут потерять деньги и признание, загнать в тупик свою карьеру и даже лишить себя Нобелевской премии.