Такое изобилие доступных данных о секвенировании ДНК привело к рождению таких научных дисциплин, как биоинформатика и сравнительная геномика, которые сочетают компьютерное моделирование, информационный анализ, анализ последовательностей и программирование с биологией. Одним из первых ученых-биоинформатиков был Франсиско Мохика, на тот момент – аспирант Университета Аликанте в Испании. В тех местах есть солончаки, где обитают удивительные микроорганизмы, выживающие в условиях крайней солености. В сущности, они не менее странные, чем инопланетные формы жизни. Например, Haloferax mediterranei – архейный организм, выдерживающий экстремальную соленость. Этих архей нашли в болотах Санта-Пола в Испании, именно их и изучал Мохика. Его научный руководитель заметил, что от концентрации соли в питательной среде зависит эффективность работы рестриктаз в геноме архей и поручил Мохике выяснить, почему так происходит.
Мохика, получив готовые данные секвенирования, также заметил странные повторы в генах рестриктаз H. mediterranei. Он наблюдал множество включений одной и той же последовательности из 30 оснований, читавшейся как палиндром (т. е. одинаково в обоих направлениях). Между этими палиндромами находились «спейсеры» (уникальные некодирующие участки ДНК между повторяющимися генами) примерно по 36 оснований в каждом. Ничего подобного Мохика ранее не видел. Результаты данного исследования он опубликовал в 1993 г. со ссылкой на работу 1987 г., проделанную группой Исино. Но природа повторов по-прежнему оставалась загадкой, и Мохика принялся анализировать новые и новые последовательности, чтобы разгадать ее.
В 1999 г. Мохика возглавил в Университете Аликанте собственную лабораторию и первым делом взялся просматривать обширные базы данных по археям в поисках повторяющихся паттернов в основном в видах Haloferax и Haloarcula. Однако он заметил регулярное проявление таких же паттернов у других видов. Это привело к всестороннему анализу новых видов по мере их появления в литературе, и к 2000 г. Мохика нашел повторяющиеся элементы в геномах 20 видов микроорганизмов. Это говорило о наличии весомой эволюционной причины для сохранения подобных повторов в ДНК организмов по всему миру. Кроме того, в 2000 г. Мохика заметил, что транскрипция прерывистых повторов (их преобразование в РНК) также происходит в клетках. Это означало, что такие повторы активируются в клетках, а не просто присутствуют в ДНК.
В 2001 г. Мохика и Рууд Янсен, также занимавшийся поиском прерывистых повторов, предложили аббревиатуру CRISPR[8] для объединения множества названий, появившихся в литературе. Это название прижилось и было быстро принято другими исследователями. Еще одной особенностью CRISPR-элементов было то, что у прокариот повторяющемуся кластеру практически всегда сопутствовала группа уникальных генов, именуемая CRISPR-ассоциированной системой, сокращенно Cas. Работа, проделанная Янсеном и Мохикой, позволила выявить и описать первые четыре Cas-гена (Cas 1–4). Затем их исследовали на уровне белков и обнаружили мотивы хеликазы и нуклеазы. Это означало, что потенциально такие ферменты могут не только разрезать, но и разматывать ДНК. Правда, если не брать в расчет эти первые гипотезы, функция CRISPR оставалась загадкой. Не было понятно, зачем именно требуются повторы.
В одном из наиболее ярких примеров того, на что способны вычислительная биология и биоинформатика, именно компьютерный алгоритм и упорный труд принесли ключевую подсказку. Почти все лето 2003 г. Мохика работал с программой BLAST (Basic Local Alignment Search Tool, помогает искать сходные аминокислотные и нуклеотидные последовательности), сравнивая наблюдаемые повторы CRISPR с другими известными последовательностями. Хотя он проделывал до этого такие операции десятки раз, повторять такой процесс стоило как можно чаще, поскольку базы данных ДНК постоянно обновляются и расширяются. Мохике повезло: он обнаружил спейсер, в точности совпадавший с фагом (вирусом, инфицирующим бактерию) P1, который может заражать кишечную палочку (E. coli). Это открытие сразу же позволило соотнести имеющуюся у бактерий адаптивную генетическую систему (массив CRISPR) с точными генетическими последовательностями у вирусов-фагов и, следовательно, открыть у бактерий новый защитный механизм. Оказалось, что у всех бактерий и архей, которые изучал Мохика, CRISPR служила в качестве первобытной иммунной системы, запоминающей вирусы, которые заражали эти микроорганизмы[9].
Эти результаты были вскоре подтверждены другими исследователями, оперировавшими иными базами данных, включая команду из Министерства обороны Франции (в том числе Жиля Верньо) и группу Александра Болотина, российского микробиолога из Французского национального института исследований в области сельского хозяйства. Дополнительная работа по оценке Yersinia pestis (чумной палочки) и других бактерий подтвердила такое соотношение между фагами и их жертвами, а также адаптивную природу всей системы. К 2003 г. сформировалась фактически совершенно новая научная дисциплина – CRISPR-исследования. В будущем такой метод сравнительного секвенирования, который помог при изучении функций CRISPR, пригодится для исследования инопланетных организмов, их биологии и адаптаций.
Довольно скоро исследовательские группы во всем мире стали раскрывать потенциал CRISPR. Первые экспериментальные доказательства (а не просто сравнения последовательностей и выводы), подтвердившие, что CRISPR являются «бактериальной иммунной системой», появились в 2006 г. благодаря Родольфу Барранжу. Затем в 2008 г. Лучано Марраффини из Чикагского университета и Эрик Зонтхаймер из Северо-Западного университета провели первые эксперименты по перепрограммированию CRISPR. Оба они работали над определением точной мишени системы CRISPR (например, РНК и ДНК) и поиском способов создания ее с нуля.
Однако на тот момент еще не было ясно, как именно этот механизм работает внутри клетки. С 2007 по 2008 г. два исследователя (Муано и Даниско) занимались изучением бактерий, у которых CRISPR не работала в полную силу и которые могли быть защищены от атаки плазмид лишь частично. Они подтвердили, что разрезание плазмид зависит от Cas-фермента (в данном случае нуклеазы Cas9). Но и здесь ученые секвенировали продукты реакций и рассматривали последовательности, стремясь выявить причину этой зависимости. Исследовав данные, они обнаружили рядом с местом разреза в плазмиде набор из трех оснований, который назвали «мотив, смежный с протоспейсером[10]» (PAM). Исследователи показали, что вирусная ДНК также разрезается в определенном месте относительно PAM, т. е. PAM отчасти служит «маячком» для бактерий, которые разрезают чужеродную ДНК в определенных местах. Еще более впечатляющим был тот факт, что чем больше спейсеров у бактерии комплиментарны участкам ДНК плазмиды, тем больше разрезов делают в ней Cas-белки. Это была прицельная, дозированная система.
Вторая ключевая механистическая часть этих исследований принадлежит Джону ван дер Осту и Евгению Кунину, которые выяснили, что можно переносить целую CRISPR-систему из одной бактерии в другую, фактически «перезагружая» функцию и перепрограммируя ее. Они обнаружили различные виды CRISPR-систем у разных бактерий (класс 1 и класс 2), которые, как было отмечено, имели разные наборы Cas-ферментов. Но у всех них присутствовал определенный набор ферментов, который обеспечивал процессинг зрелых функциональных CRISPR-РНК (crРНК) из пре-crРНК и разрезание чужеродных ДНК-молекул, работая по одной схеме, названной Cascade. Ван дер Ост и Кунин обратили внимание на то, что в зрелой crРНК за восемью последними основаниями в повторе следует спейсер, а затем начинается следующий повтор. Таким образом, crРНК свертывается в функциональную структуру в виде шпильки, которая обеспечивает точное нацеливание и последующий разрез. В рамках спроектированного таким образом эксперимента они синтезировали первый в истории искусственный массив CRISPR. Фактически это настраиваемая вакцина, которую можно собрать для любой бактерии.
Два других исследователя (Марраффини и Зонтхаймер) планировали воссоздать всю систему CRISPR in vitro, но оказалось, что с выбранной ими бактерией (S. epidermidis) это слишком сложно, поскольку у нее девять Cas-генов и для ее описания требовалось много времени. Поэтому Марраффини и Зонтхаймер поступили иначе: модифицировали ту плазмиду, на которую нацеливается CRISPR-система S. epidermidis. Они добавили в нее «самосплайсинговый» элемент[11], который никак не влиял на работу CRISPR, будь та нацелена на чужеродные РНК, если CRISPR-система S. epidermidis использовала в качестве субстрата РНК. Однако если бы мишенью для CRISPR была ДНК, то иммунная система бактерии не сработала бы, поскольку в таком случае после вставки дополнительной последовательности спейсер CRISPR уже не подходил бы к протоспейсеру. Результаты показали, что CRISPR направлена на ДНК, а не на РНК и фактически является «программируемым ферментом-рестриктазой». Марраффини и Зонтхаймер первыми объявили, что CRISPR можно переориентировать на редактирование генома в других клетках, в том числе в человеческих. В своей статье они отметили: «С практической точки зрения способность направлять специфическую адресную деструкцию молекулы ДНК, содержащей любую заданную последовательность–мишень, состоящую из 24–48 нуклеотидов, могла бы иметь значительную функциональную пользу, в особенности если такая система могла бы работать вне своей исходной бактериальной или архейной клетки».
Последний элемент этой мозаики отыскали в 2011 г. Эмманюэль Шарпентье и Йорг Фогель. Шарпентье искала бактериальные РНК, которые обладали бы нужной функцией, и на одной конференции в Висконсине повстречала Фогеля. Незадолго до того он освоил высокопроизводительное секвенирование (секвенирование следующего поколения, NGS). Этот метод помог ему лучше изучить РНК