Закодированная эволюция

2021-11-14 18:53

14 апреля 2003 г. учёные оповестили мир об окончании секвенирования геномной ДНК человека – определении последовательности всех трёх миллиардов пар её нуклеотидов, в которой заключена информация о строении и функционировании человеческого организма. Однако завершающим этот этап в исследовании генома назвать никак нельзя. Предстоит ещё огромная работа – отыскать все функционирующие гены среди необозримого генетического «хлама», детально разобраться в том, каким образом и когда они активируются, как содержащиеся в них инструкции определяют свойства белков. Неудивительно, что Френсис Коллинз (Francis S. Collins), руководитель проекта «Геном человека», назвал завершение секвенирования ДНК лишь «концом начала».

А «началом начала» послужило открытие, сделанное Джеймсом Уотсоном и Френсисом Криком в 1953 г., – построение модели ДНК (двойной спирали). Стало окончательно ясно, что ДНК – самая главная биологическая молекула, хранительница секрета жизни. Она обеспечивает воспроизводимость живых существ от поколения к поколению и инструктирует организм о том, как он должен развиваться и функционировать. Все последующие годы учёных занимал вопрос, как именно происходит этот процесс. Информация содержится в ДНК в закодированном виде, и для того, чтобы клетки знали, какие из 20 аминокислот и в каком порядке они должны соединяться друг с другом для получения тысяч белков, служащих строительным материалом для миллиардов живых форм, её необходимо расшифровать.

Но в то время о работе клеточного аппарата декодирования было известно так мало, что все попытки взломать генетический код сводились к решению чисто математических задач. Когда в 1960-е гг. наконец он был расшифрован, его простота всех обескуражила. То, что придумала природа, выглядело гораздо менее изобретательным, чем многие гипотезы учёных.

И только открытия последних лет показали, насколько сложен язык программирования живых организмов. Почему были выбраны именно эти правила кодирования и почему они сохранились на протяжении трёх миллиардов лет эволюции – стало проясняться лишь сейчас. Как оказалось, они не только удерживали живые системы от совершения непоправимых ошибок при синтезе белков, но и способствовали эволюции. Изучение генетического кода даёт помимо всего прочего ключ к разгадке многих нерешённых пока проблем постгеномной эры. Возвращаясь к истокам и пытаясь понять закономерности, лежащие в основе генетического кода, мы получаем инструмент для будущих исследований.

Слова «код» и «декодирование» имеют в данном контексте буквальный смысл. Генетические инструкции хранятся в однотипных биологических молекулах, нуклеиновых кислотах ДНК и РНК, при том, что организмы построены из огромного числа разнородных белков. Таким образом, хотя ген в его обычном понимании – это последовательность нуклеотидов, которая исчерпывающим образом описывает определённый белок, то генетическое послание можно прочесть, только переведя его с языка, использующего одну систему символов, на совершенно другой язык. Аналогично тому, как переводится послание, записанное с помощью азбуки Морзе, на английский или любой другой язык.

? Взломать код

К 1953 г., когда Уотсон и Крик создали модель структуры ДНК, было известно, что «алфавит» молекулы состоит всего из четырёх «букв» – азотистых оснований аденина (А), тимина (Т), гуанина (G) и цитозина (С). Согласно модели, они составляют ступеньки винтовой лестницы, образованной навитыми одна на другую комплементарными цепями ДНК. Белковый же алфавит состоит из 20 аминокислот, из чего следует, что каждой из них должно соответствовать «слово» из нескольких нуклеотидов ДНК. Комбинации из двух нуклеотидов давали всего 16 кодонов, а из трёх – целых 64.

О том, как гены превращаются (транслируются) в белки, в то время не представляли. Сегодня мы знаем, что нуклеотидная последовательность трансформируется в последовательность аминокислот с использованием триплетного кода и что это – сложный многоступенчатый процесс. Сначала ДНК-ген копируется и редактируется с образованием РНК-копии (транскрипта); РНК состоит из таких же нуклеотидов, что и ДНК, только место тимина в ней занимает урацил. Далее РНК-копия гена (её называют матричной РНК, мРНК) прочитывается клеточной машиной белкового синтеза, раз за разом по три буквы, и при участии небольших вспомогательных транспортных РНК (тРНК), нагруженных каждая своей аминокислотой, трансформируется в белковую молекулу.

Первое решение головоломки, какой тогда представлялся процесс трансляции, было предложено физиком Джорджем Гамовым (George Gamow) – автором гипотезы Большого Взрыва. Его идея алмазного кода, сформулированная в 1954 г., была остроумной комбинацией чисто арифметического способа получения 20 аминокислот на основе четырёхнуклеотидного алфавита, с одной стороны, и физической структуры ДНК – с другой. Гамов постулировал, что с каждым витком двойной спирали в ней образуется пустое пространство в форме кристалла алмаза с нуклеотидами по четырём углам. Благодаря наличию таких пустот ДНК могла служить линейной матрицей, вдоль которой выстраиваются аминокислоты в порядке, задаваемом комбинациями нуклеотидов в каждом витке ДНК. Модель предполагала перекрываемость смысловых кодонов в зависимости от положения места, с которого начинается считывание последовательности «букв» вдоль молекулы ДНК. Такой способ компактизации данных был по достоинству оценен специалистами в области теории кодирования. Однако вскоре были обнаружены аминокислотные цепочки, не вписывающиеся в рамки гамовского и любого другого перекрывающегося кода.

Одновременно появились данные, что ДНК и аминокислоты не могут взаимодействовать друг с другом напрямую. Тогда Крик высказал предположение о существовании адапторных молекул, служащих посредниками между ними, и в 1957 г. сформулировал набор правил, в соответствии с которыми осуществлялось это посредничество. Согласно его гипотезе, адапторы узнают только 20 смысловых кодонов, каждый из которых соответствует своей аминокислоте, остальные 44 триплета бессмысленны. Код Крика не имел знаков препинания, поскольку нецелесообразные кодоны были фактически невидимыми для адапторов, так что знак, указывающий на начало считывания, был не нужен. Концепция кода «без знаков препинания» была настолько в духе времени, что сразу получила почти безоговорочное признание – впрочем, ненадолго: до тех пор, пока новые данные не обнаружили её несостоятельность.

В начале 1960-х гг. было экспериментально показано, что кодоны, считавшиеся Криком бессмысленными, могут провоцировать белковый синтез в пробирке, и к 1965 г. был установлен смысл всех 64 триплетов. Оказалось, что никаких магических чисел не существует: некоторые кодоны просто-напросто избыточны, т.е. целый ряд аминокислот кодируется двумя, четырьмя и даже шестью триплетами. Многолетние спекуляции на тему генетического кода закончились, многие сочли, что он – не более чем случайность.

? Застывшая случайность?

Как только генетический код был расшифрован, учёные обнаружили, что он одинаков во всём биологическом мире – его используют и самые простые организмы (бактерии), и самые сложные (человек). Казалось, он не претерпел никаких изменений за те миллиарды лет, которые прошли со времени отделения от одного общего предка трёх основополагающих доменов живых организмов – архебактерий, бактерий и эукариот. Простая и столь убедительная, на первый взгляд, идея «застывшей случайности» до недавнего времени владела умами учёных. «Соответствие между кодонами и аминокислотами в момент его установления было чисто случайным, – писал Крик, – но, раз возникнув, генетический код стал фундаментом всего биологического мира, и любые изменения в нём привели бы к катастрофе».

? Код, созданный природой

Нуклеотидную последовательность гена можно сравнить с предложением, в котором содержится исчерпывающая информация о кодируемом им белке. «Словами» служат кодоны (тройки нуклеотидов), каждый из которых кодирует одну из 20 аминокислот или сигнал «стоп». В клетке происходит транскрипция гена – синтез на нём как на матрице его РНК-версии, состоящей из нуклеотидов A, C, G и U. Затем клеточная машина трансляции последовательно считывает эту РНК, переводя информацию с языка нуклеотидов на язык аминокислот. Соответствие между кодонами и аминокислотами было установлено в начале 1960-х гг., но его истинный смысл долгое время не был понят.

Естественный отбор, по Дарвину, предполагает, что иногда в том или ином гене могут происходить небольшие изменения, благодаря которым данный организм приобретает определённые преимущества по сравнению с другими. Но речь не идёт о смене правил кодирования как таковых. Случись такое, и изменения произошли бы одновременно в бессчётном числе сайтов по всему геному, попросту разрушив организм. Есть большая разница между появлением одной-единственной опечатки и поломкой всей клавиатуры печатающего устройства.

Большинство живых систем используют стандартный генетический код, однако на сегодня известно, по крайней мере, 16 его вариантов, встречающихся у представителей самых разных ветвей эволюционного древа. Сам принцип кодирования не меняется: аминокислоты кодируются тройками нуклеотидов. Но наряду с организмами, прочитывающими РНК-кодон CUG как лейцин, существуют такие (к их числу относятся многие виды гриба Candida), которые воспринимают его как серин. Другой пример – митохондрии, своего рода крошечные энергетические станции, присутствующие в любой клетке. У них есть собственная ДНК, и в ходе эволюции они сформировали свой генетический код. Например, у митохондрий пекарских дрожжей (Saccharomyces cerevisiae) четыре из шести кодонов, обычно транслирующихся в лейцин, кодируют треонин.

В 1990-х гг. по мере накопления новых данных об изменчивости генетического кода становилось всё более очевидно, что это вовсе не застывшая конструкция, возникшая по воле случая. Генетический код мог эволюционировать, а значит, он действительно эволюционировал. Таким образом, каноническое соответствие между триплетными кодонами и аминокислотами – не результат случайности. На самом деле установление этого соответствия – блестящая работа по минимизации случайностей.

? Служба генетической безопасности

Любая система кодирования должна уметь противостоять возможным ошибкам. Но ошибки ошибкам рознь. Так, если мы заменим какую-нибудь согласную в предложении (скажем, «с») на гласную (например, «а»), то понять смысл фразы нам вряд ли удастся. Другое дело – замена «с» на созвучную «з» (Знег зовзем зошёл). Стратегия кодирования должна быть такой, чтобы последствия любой возможной ошибки были минимальными.

В биологических системах возникают ошибки самого разного рода. Иногда они происходят на уровне генов (их называют мутациями), иногда – при синтезе белков (с мРНК связывается тРНК, нагруженная не той аминокислотой). Но даже когда учёные рассматривали генетический код как случайность, они обнаружили, что он на удивление эффективно минимизирует последствия единичных ошибок. Уже в 1965 г. Карл Воезе (Carl R. Woese) из Иллинойского университета подметил, что незначительно различающиеся кодоны (у которых совпадают две из трёх позиций) обычно кодируют аминокислоты со сходными свойствами, так что случайная ошибка в них практически не сказывается на поведении синтезированного белка.

Понятие «сходные» в отношении аминокислот нуждается в пояснении. 20 природных аминокислот отличаются друг от друга по самым разным параметрам: по форме, размеру, электрическому заряду и т.д. Карл Воезе обратил внимание на то, что кодоны с двумя одинаковыми нуклеотидами предпочтительно кодируют аминокислоты с идентичным сродством к воде (способностью растворяться в ней или, наоборот, стремлением избегать водного окружения). Это свойство очень важно для функционирования белка, в который входят данные аминокислоты. Синтезированная цепочка из аминокислот приобретает разную пространственную конфигурацию в зависимости от того, в каком месте и в каком количестве находятся в ней гидрофобные аминокислоты, которые предпочитают располагаться во внутренних областях белковой глобулы (цепочки, свернувшейся в клубок), куда нет доступа воде (цитоплазме). Наружную её поверхность образуют гидрофильные аминокислоты.

Генетический код обладает замечательной особенностью: при однонуклеотидной замене (точечной мутации) в полинуклеотидной цепочке вместо одной аминокислоты обычно появляется другая со сходными гидрофобными свойствами, так что на функциональных качествах белка эта замена отражается не сильно. Насколько же прочен генетический код? Этим вопросом мы задались в 1998 г., обратившись к данным, полученным ранее другими исследователями.

? Проверка кода на прочность

Вначале мы количественно оценили гидрофобность всех 20 аминокислот. Затем использовали эти данные для вычисления цены ошибки в генетическом коде, которую мы определили как среднее изменение гидрофобности аминокислот, обусловленное всеми возможными однонуклеотидными заменами во всех 64 кодонах. Этот параметр отражал чувствительность генетического кода к ошибкам, но сам по себе мало что значил. Нам же необходимо было выяснить, благодаря чему известная нам сегодня система кодирования выдержала конкуренцию с возможными альтернативными системами.

Прежде чем создавать гипотетические альтернативные системы, нужно было сформулировать некоторые предположения относительно тех реальных ограничений, в рамках которых они должны были функционировать. Было известно, что ошибки в кодировании аминокислот чаще всего обусловливаются заменой третьего нуклеотида в триплете. По этому сайту допускается нестрогое соответствие между мРНК и тРНК и неоднозначное спаривание их при трансляции (гипотеза «качания», сформулированная Криком). Но синонимичные кодоны, кодирующие одну аминокислоту, обычно и различаются по третьей позиции, так что подобная неправильная транслитерация часто не приводит к замене аминокислоты.

Группирование синонимичных кодонов само по себе уменьшает значимость ошибки при кодировании, однако принцип «качания» связан скорее с биохимическими ограничениями, чем с адаптационными. Таким образом, для перестраховки (количественно оценивая гидрофобность) мы должны рассматривать только такие альтернативные коды, которые обладают данным свойством. Более того, понятие «гидрофобность» неприменимо к кодонам, отвечающим знакам препинания, так что мы приняли их число и смысл одинаковыми для всех альтернативных систем кодирования.

Один из самых простых способов конструирования альтернативных кодов, удовлетворяющих всем этим ограничениям, состоит в случайном распределении 20 аминокислот по 20 кодоновым блокам. Такая процедура даёт 2,5 х 1018 возможных конфигураций (примерно столько секунд прошло со времени образования Земли). Мы взяли из них случайные выборки и обнаружили, что в одной из них, состоящей из 1 млн. альтернативных кодов, только у ста цена ошибки меньше, чем у канонического кода.

Ещё более интересный факт обнаружился, когда мы ввели дополнительное ограничение, с тем чтобы учесть реально существующие тенденции в характере мутирования ДНК и появлении ошибок при трансляции. При таких условиях лучше канонического кода оказался только один из миллиона альтернативных.

Столь беспрецедентную жизнестойкость генетического кода проще всего объяснить тем, что он сформировался в результате естественного отбора. Возможно, когда-то в биологическом мире существовало множество кодов, каждый со своей чувствительностью к ошибкам. Организм, лучше справлявшийся с ними, имел больше шансов выжить, и канонический код просто победил в борьбе за существование. Это предположение кажется вполне реальным – ведь мы знаем, что альтернативные коды действительно существуют.

Источник: vk.com

Закодированная эволюция

Комментарии: