Семантический подход позволяет языковой модели Evo создавать функциональные гены de novo

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Ученые из США показали, что геномная языковая модель Evo способна создавать новые функциональные последовательности, опираясь на контекст прокариотического генома. С помощью Evo они сгенерировали системы токсин-антитоксин (как белковые, так и на основе РНК) и анти-CRISPR белки, причем некоторые варианты не имели выраженного сходства с природными белками, но обладали целевой активностью. Также авторы работы создали базу SynGenome, содержащую 120 гигабаз синтетической ДНК. Некоторые входящие в нее гены также выходили за пределы естественных последовательностей. Это доказывает, что семантический подход позволяет получать гены de novo, опираясь только на организацию геномов.

Группа исследователей из США представила концепцию «семантического проектирования» искусственных геномов. Она основана на использовании Evo — геномной языковой модели, обученной на миллиардах пар оснований прокариотических геномов. В геномах бактерий гены с родственными функциями часто располагаются рядом, формируя опероны и устойчивые функциональные кластеры. Если модель способна улавливать такую «геномную семантику», то, используя короткую подсказку из реального геномного контекста, она может генерировать новые последовательности, функционально связанные с этим контекстом, но не обязанные быть похожими на природные. С помощью такого «автодополнения» последовательностей авторы сгенерировали токсины, антитоксины, анти-CRISPR белки и РНК-антитоксины — то есть белки и нуклеиновые кислоты, обладающие активностью, но не имеющие выраженного сходства с природными последовательностями. 

Для начала авторы проверили способность Evo к автодополнению бактериальных генов, то есть давали только фрагмент высококонсервативного гена и оценивали, может ли модель правильно его продолжить. В анализ включили три версии модели, из них Evo 1.5 продемонстрировала наиболее высокую производительность. Например, получая на вход всего 30% последовательности, модель восстанавливала сигма-фактор РНК-полимеразы Escherichia coli (rpoS) c 85%-ной достоверностью. Также Evo 1.5 продемонстрировала способность достраивать гены внутри целых оперонов, учитывая направление транскрипции. Анализ энтропии показал, что модель не запоминает конкретные последовательности, а генерирует их заново, сохраняя ключевые аминокислоты, но варьируя нуклеотиды, подобно естественной эволюции.

Далее ученые перешли к полноценному функциональному дизайну и с помощью подсказок из геномного контекста пытались создавать многокомпонентные системы. Для моделирования они выбрали системы токсин-антитоксин типа II, играющие роль в защите от бактериофагов. Сначала авторы генерировали токсичные белки, затем тестировали их способность ингибировать рост бактерий. Один из вариантов, EvoRelE1, продемонстрировал выраженную токсичность — он снижал выживаемость бактерий на 70% — и умеренное сходство с с природным RelE. Затем его последовательность использовали в качестве входных данных, чтобы модель создала подходящие антитоксины. Из набора сгенерированных последовательностей половина оказалась функциональной, а лучшие варианты полностью восстанавливали рост клеток. Некоторые антитоксины нейтрализовали сразу несколько природных токсинов, хотя сами имели низкое сходство с природными последовательностями. Это указывает на способность модели извлекать скрытые принципы взаимодействий белков, не ограниченные существующими природными шаблонами.

Аналогичный подход применили к системам типа III, где для нейтрализации токсина используется не белок, а повторяющаяся РНК. Среди кандидатов нашли рабочий РНК-антитоксин EvoAT6, подавляющий токсин ToxN и имеющий лишь умеренное сходство с последовательностью ToxI — РНК-антитоксина Bacillus multifaciens. Более того, Evo создала полностью новый токсин EvoT1, не похожий на существующие в природе.

Используя контексты природных анти-CRISPR оперонов — фаговых систем защиты от иммунитета бактерий, — модель создала большую библиотеку кандидатных анти-CRISPR белков (Acr). Авторы оценили их потенциал с помощью алгоритма машинного обучения PaCRISPR, который классифицировал многие последовательности как вероятные Acr. Затем их тестировали в культурах E. coli. В результате 17% последовательностей подавляли работу Cas9, причем пять из них обеспечивали выраженную защиту как в жидкой культуре, так и при фаговой инфекции. Два белка, EvoAcr1 и EvoAcr2, не были схожи с какими-либо природными белками. EvoAcr3–5 также были эффективны, но принадлежали к существующим классам белков, включая те, что ранее не были связаны с анти-CRISPR активностью.

В завершение работы авторы создали SynGenome — базу данных искусственных геномов, содержащую 120 миллиардов пар оснований синтетической ДНК. В качестве геномных подсказок модель опиралась на более чем 1,7 млн природных бактериальных и фаговых генов. Анализ этой базы показал, что сгенерированные открытые рамки считывания (ORF) по длине, структуре и доменной архитектуре напоминают природные, но при этом около 20% последовательностей формируют кластеры, отсутствующие в природном семантическом пространстве геномов. SynGenome также воспроизводит естественные ассоциации доменов и может подсказать функцию неохарактеризованных белков. База данных находится в открытом доступе.

Таким образом, что языковая модель, обученная на прокариотических геномах, способна создавать новые функциональные молекулы, основываясь исключительно на геномном контексте, которое в природе отражает функциональные связи. Полученные белки и РНК — токсины, антитоксины, анти-CRISPR-системы — обладают биологической активностью, при этом многие из них принципиально новы и не имеют явного сходства с известными белками. Этот подход открывает возможность быстрого генерирования стартовых вариантов для дальнейшей инженерии, поиска новых биологических инструментов и расширения функционального пространства генов.


Источник: pcr.news

Комментарии: