[19] требует их предварительной кристаллизации, а для этого нужно совершить немало проб и ошибок. Есть и другие методы – например, с использованием электронных микроскопов, – но среди них не найдется ни быстрых, ни простых. Хочется думать, что вместо физического получения и измерения белка мы могли бы просто рассчитать по его аминокислотной последовательности, какую форму он примет. Специфика генетического кода позволяет нам без труда определять порядок аминокислот в белке по последовательности нуклеотидов в ДНК, о чем мы подробнее поговорим в следующей главе. В теории, раз мы понимаем физику электрических сил, гидрофобных и гидрофильных взаимодействий, мы могли бы просто загрузить аминокислотную последовательность в несложную компьютерную программу, которая произведет необходимые вычисления и остановится, обнаружив оптимальную молекулярную укладку. На практике же число возможных конформаций так велико, что даже самым быстрым компьютерам сложно изучить их все.
Для решения этой вычислительной проблемы разрабатывают хитроумные подходы: одни направлены на улучшение алгоритмов расчета сил и энергий, другие прибегают к упрощениям вроде группировки наборов атомов, третьи обращаются к нетрадиционным компьютерным архитектурам. Так, можно сконструировать нестандартный компьютер, интегральные схемы которого изначально созданы не для выполнения общих задач, а для расчета сил, действующих на аминокислоты. По такому пути пошел Дэвид Шоу[20]11, пустивший немалые доходы от управления инвестициями на разработку уникальных суперкомпьютеров для решения биофизической проблемы фолдинга белков. Можно использовать и обычные компьютеры, если они интегрированы в огромный, стихийно организованный массив. Так поступили авторы программы folding@home, которая работает в фоновом режиме на компьютерах добровольцев (войти в их число может любой желающий) и использует периоды простоя, чтобы распределять вычисления по десяткам тысяч устройств12. А можно делать ставку и на человеческий ум. Например, исследователи из Вашингтонского университета создали бесплатную игру foldit, посвященную фолдингу белков: пользователи перемещают на экране аминокислоты, как фрагменты мозаики, а результаты их работы передаются ученым13. Также можно применять искусственный интеллект, обучив компьютерную нейронную сеть выявлять закономерности в известных белковых структурах и применять их для предсказания новых форм. В этом направлении пошла DeepMind, дочерняя компания Google, добившаяся выдающихся результатов и победы в конкурсе «Критическая оценка предсказания структуры белков» в 2020 году14. Эти и другие стратегии доказали свою состоятельность, но быстрый и универсальный метод расчета структуры, которую примет аминокислотная последовательность, все еще не найден.
Человеку даже как-то унизительно признавать, что сами белки без труда решают проблему фолдинга, за долю секунды принимая нужную форму в каждой клетке каждого существа на Земле. Самосборка вызывает восхищение: она позволяет форме возникнуть из элементов и сил, неотъемлемых от самих природных веществ. Мы узнаем, что стоит за стремительностью и надежностью этого процесса, в главе 6, где речь пойдет о молекулярной случайности. Но сначала давайте изучим связь белков и ДНК, дадим определение гену и заложим основы для выяснения того, как самособранные структуры формируют схемы принятия решений в клетках.
Глава 3. Гены и механика ДНК
Мы назвали ДНК кодограммой, но что именно она кодирует? Мы бросили взгляд на несколько белков из огромного множества тех, что способен производить организм, но чем определяется их набор? Ответить на оба вопроса нам поможет одно понятие – понятие гена: оно объединяет абстрактную идею биологической информации с физической реальностью биологических молекул. Как сильные, так и слабые стороны генов неразрывно связаны с физическими свойствами ДНК, белков и среды, в которой они существуют. Обсуждая генетические болезни, мы далеко не всегда вспоминаем о проблемах изгибания ДНК или укладки молекул в малые пространства, но скоро мы увидим, что такие неочевидные вопросы играют важную роль в изучении механики жизни. Самосборка в этой главе опять окажется на первом плане, поскольку ДНК и белки, например, должны соединяться для правильной упаковки генома. Вопросы предсказуемой случайности, масштабирования и регуляторных цепей тоже неизбежны в работе с нашим генетическим материалом, ведь клетки, организуя свою ДНК, постоянно решают проблемы размера, формы и беспорядка.
Как мы выяснили, белок – это последовательность аминокислот, соединенных химическими связями. Порядок аминокислот в цепи задается нуклеотидной последовательностью ДНК клетки. Одну аминокислоту кодирует группа из трех нуклеотидов (триплет). Так, в ДНК-последовательности TГГ закодированы инструкции для включения в цепь одной гидрофобной аминокислоты триптофана. Триплеты ЦГT и ЦГЦ соответствуют положительно заряженной аминокислоте аргинину. Таким образом, последовательность TГГЦГT указывает на триптофан, связанный с аргинином. Не существует, однако, механизма, напрямую переводящего инструкции ДНК в аминокислотные последовательности. Всегда необходим посредник – молекула РНК (рибонуклеиновой кислоты).
РНК, как следует из названия, похожа на ДНК. Это тоже цепочка из нуклеотидов четырех типов, три из которых (A, Ц и Г) аналогичны нуклеотидам ДНК, а четвертый (У, урацил) заменяет в РНК тимин (T). Белковая машина, называемая РНК-полимеразой, связывается с промо́торной последовательностью ДНК и перемещается по двойной спирали, как язычок замка-молнии, разделяя две нити и выстраивая по нуклеотидной последовательности одной из них, матричной, комплементарную цепочку РНК (см. рисунок)[21]. Процесс копирования информации из формы ДНК в форму РНК называется транскрипцией – по аналогии с транскрипцией произносимых слов в текст или переводом рукописного текста в печатный.
РНК комплементарна матричной цепи ДНК и, следовательно, идентична ее партнерше, кодирующей цепи, за исключением урацилов, занявших в РНК места всех тиминов. Например, кодирующая цепь ДНК ATЦГTT, которой соответствует зеркально отраженная матричная цепь TAГЦAA, будет транскрибирована в РНК-последовательность AУЦГУУ. Другая клеточная машина, рибосома, транслирует РНК в белок. Рибосома движется вдоль РНК[22], взаимодействуя с каждым триплетом (кодоном) и прикрепляя соответствующую аминокислоту к растущему белку (см. рисунок). Например, РНК-триплет УГГ кодирует триптофан, а последовательности ЦГУ и ЦГЦ – аргинин. Некоторые триплеты (УАГ, УГA, УAA) кодируют команду «стоп», которая сообщает рибосоме, что нужно прервать синтез белка и отсоединиться от РНК. Триплет AУГ, напротив, значит «старт».
Следовательно, тот или иной сегмент ДНК определяет, какой белок будет создан в ходе транскрипции, а затем трансляции. Поскольку ДНК передается от родителей детям через яйцеклетку и сперматозоид, каждый из таких сегментов обеспечивает наследственную передачу черт – показателей активности и иных свойств соответствующих белков. Так, ваша способность видеть цвет обеспечивается тремя разными белками, каждый из которых реагирует на свет определенной длины волны и производится в одном из трех типов колбочек в вашей сетчатке. Возникновение отличий хотя бы в одном триплете, кодирующем одну аминокислоту из приблизительно 350 в составе каждого из этих белков, может привести к небольшим, но ощутимым отклонениям в цветовосприятии. В более радикальных случаях, когда полностью теряется участок ДНК, кодирующий тот или иной светочувствительный белок, развивается одна из форм дальтонизма1.
Можно подумать, что сегменты ДНК, кодирующие белки, мы и называем генами. Это почти, но не совсем так.
Клетки должны не только определять, какой репертуар белков им нужно создавать, но и контролировать, когда и в каком количестве их производить. Некоторые участки ДНК не кодируют белковые последовательности, а влияют на считывание других сегментов механизмами транскрипции и трансляции. Например, белки из класса факторов транскрипции могут прикрепляться к промотору возле начальной точки работы РНК-полимеразы, уменьшая или увеличивая вероятность того, что полимераза займет нужное место и начнет транскрипцию. Мы уже видели такой пример, когда рассматривали рецептор глюкокортикоидных гормонов. Другой вариант: участок ДНК может транскрибироваться в РНК без последующей трансляции в белок, и сама эта РНК способна взаимодействовать с ДНК или с другими РНК, оказывая влияние на синтез белков. РНК участвует в регуляции жизнедеятельности клетки множеством способов, в которых мы начали разбираться совсем недавно и повысили в итоге статус РНК с простого посредника между ДНК и белком до критически важного участника этих молекулярных «переговоров». Так, чувствуя голодание, клетки производят РНК под названием GAS5 (транскрипт 5, специфичный для остановки роста), которая прикрепляется к ДНК-связывающей области глюкокортикоидного рецептора и таким образом препятствует его взаимодействию с мишенью: структурное сходство с ДНК позволяет РНК служить обманкой2.
Регуляция процессов, в ходе которых генетическая информация трансформируется в те или иные молекулы, важна не менее, чем сама эта информация, и тоже попадает в определение гена: ген – это отрезок ДНК (за редким вирусным исключением), кодирующий какую-либо наследственную характеристику, обычно соответствующую одному белку или молекуле РНК, и включающий в себя некодирующие регуляторные последовательности. Это громоздкое определение, к тому же постоянно меняющееся, но жизнь и не обязана соответствовать нашему стремлению к простой терминологии. Ситуацию осложняет и то, что термин «ген» по старинке часто трактуют только как белок-кодирующий сегмент ДНК. В этой книге я постараюсь быть максимально точным и понятным. К счастью, вопрос, к которому мы подошли, достаточно прост.