ESM3: Моделирование 500 миллионов лет эволюции с помощью языковой модели

2024-06-29 11:54

Эволюционный Масштаб

Более 3,5 миллиардов лет назад жизнь на Земле возникла в результате химических реакций. Природа изобрела РНК, белки и ДНК — основные молекулы жизни — и создала рибосому — молекулярную фабрику, которая строит белки по инструкциям в геноме.

Белки — это удивительные динамические молекулы с невероятными функциями: от молекулярных двигателей, обеспечивающих движение, до фотосинтетических машин, улавливающих свет и преобразующих его в энергию, строительных лесов, из которых строятся внутренние скелеты клеток, сложных датчиков, взаимодействующих с окружающей средой, и систем обработки информации, которые запускать программы и операционную систему жизни. Белки лежат в основе болезней и здоровья, и многие жизненно важные лекарства являются белками.

Биология — это самая передовая технология, когда-либо созданная, намного превосходящая все, что создали люди. Рибосома программируема: она принимает коды белков в форме РНК и создает их с нуля — производство на атомном уровне. Каждая клетка каждого организма на Земле имеет тысячи и миллионы таких молекулярных фабрик. Но даже самые сложные вычислительные инструменты, созданные на сегодняшний день, едва касаются поверхности: биология написана на языке, который мы еще не понимаем.

Если бы мы могли научиться читать и писать в коде жизни, это сделало бы биологию программируемой. Метод проб и ошибок будет заменен логикой, а кропотливые эксперименты — моделированием.

Представляя себя как новую компанию, мы рады представить ESM3 — передовую языковую модель для наук о жизни, которая расширяет наши возможности программировать и творить, используя код жизни. ESM3 делает шаг в будущее, где ИИ станет инструментом для проектирования биологии на основе основополагающих принципов точно так же, как мы проектируем структуры, машины и микрочипы и пишем компьютерные программы.

В новом препринте (в настоящее время находится в предварительном просмотре и ожидает отправки в bioRxiv) мы описываем создание нового зеленого флуоресцентного белка (GFP). Флуоресцентные белки отвечают за светящиеся цвета медуз и кораллов и являются важными инструментами современной биотехнологии. esmGFP, наш новый белок, имеет последовательность, которая лишь на 58% похожа на последовательность ближайшего известного флуоресцентного белка. Судя по скорости диверсификации GFP, обнаруженной в природе, мы пришли к выводу, что это поколение нового флуоресцентного белка эквивалентно моделированию более 500 миллионов лет эволюции.

Мощь и потенциал этих новых технологий требуют с самого начала приверженности принципам ответственного развития, включая прозрачность и подотчетность. С этой целью, опираясь на наш опыт ученых и исследователей, мы создали основу ответственного развития, которая будет направлять наш прогресс.

ESM3: Модель передового языка для биологии

Сегодня мы представляем ESM3, первую генеративную модель в биологии, которая одновременно анализирует последовательность, структуру и функцию белков.

ESM3 обучается на природном разнообразии Земли — миллиардах белков, от тропических лесов Амазонки до глубин океанов, экстремальных сред, таких как гидротермальные источники, и микробов в горстке почвы.

ESM3, обученный на одном из сегодняшних кластеров графических процессоров с самой высокой пропускной способностью в мире, представляет собой передовую генеративную модель для биологии, созданную с использованием новейших параметров, вычислительной мощности и данных. Мы считаем, что ESM3 — это самый вычислительный метод, когда-либо применявшийся для обучения биологической модели, обученный с использованием более 1x10 24 FLOPS и 98B параметров.

В ИИ мы видим силу масштабирования. По мере увеличения масштаба модели в параметрах, данных и вычислениях более крупные модели приобретают новые возможности, которых нет у меньших моделей. Во многих различных областях универсальные модели, обученные на разнообразных данных, превосходят специализированные модели. Невероятные темпы развития новых достижений в области искусственного интеллекта обусловлены все более крупными моделями, все более большими наборами данных и увеличением вычислительной мощности.

Те же закономерности справедливы и в биологии. В ходе исследований последних пяти лет команда ESM изучала масштабирование в биологии. Мы обнаруживаем, что по мере масштабирования языковых моделей они развивают понимание основных принципов биологии и открывают биологическую структуру и функцию.

ESM3 представляет собой важную модель в семействе ESM — первую, созданную нашей командой в EvolutionaryScale, на порядок большую, чем наша предыдущая модель ESM2, и изначально мультимодальную и генеративную.

Рассуждения о последовательности, строении и функциях белков . Языковые модели работают с дискретными единицами или токенами. Чтобы создать тот, который мог бы рассуждать о трёх фундаментальных биологических свойствах белков — последовательности, структуре и функции — нам пришлось преобразовать трёхмерную структуру и функцию в дискретные алфавиты и разработать способ записи каждой трёхмерной структуры в виде последовательности буквы. Это позволяет масштабировать обучение ESM3, открывая новые генеративные возможности. Словарь ESM3 объединяет последовательность, структуру и функции в рамках одной языковой модели.

ESM3 обучается с простой целью. Для каждого белка его последовательность, структура и функция извлечены, токенизированы и частично замаскированы. Задача ESM3 — предсказать замаскированные позиции, используя цель моделирования замаскированного языка, вдохновленную моделями обработки естественного языка. Чтобы выполнить эту задачу, ESM3 должен научиться глубокому пониманию связи между последовательностью, структурой и функцией данных эволюционного масштаба. При масштабировании миллиардов белков и миллиардов параметров ESM3 учится моделировать эволюцию.

Учитывая ограниченный объем экспериментально определенных аннотаций структур и функций, мы дополняем мультимодальный набор обучающих данных ESM3 сотнями миллионов синтетических точек данных, включая предсказанные структуры и функции для различных последовательностей.

ESM3 — это многоканальный преобразователь, который совместно анализирует последовательность, структуру и функцию белка.

Программирование биологии. ESM3 — это генеративная модель, позволяющая программировать биологию. Он может следовать подсказкам для создания новых белков. Ученые могут взаимодействовать с ESM3, направляя его на создание множества приложений, таких как медицина, биологические исследования и экологически чистая энергия.

Белки можно генерировать, начиная с полностью замаскированного набора токенов и итеративно снимая маски, пока все позиции не будут заполнены. Поскольку последовательность, структура и функция маскируются и прогнозируются во время обучения, ESM3 может генерировать все три модальности. Этот процесс генерации также может управляться любой комбинацией частичной или полной спецификации последовательности, структуры и функции.

Мультимодальная способность мышления ESM3 позволяет ученым создавать новые белки с беспрецедентной степенью контроля. Например, модели можно предложить объединить структуру, последовательность и функцию, чтобы предложить потенциальный каркас для активного сайта ПЭТазы, фермента, который разлагает полиэтилентерефталат (ПЭТ), мишень, представляющую интерес для белковых инженеров для расщепления пластиковых отходов. .

ESM3 создает каркас для активного сайта ПЭТазы посредством мультимодальных подсказок с последовательностью, структурой и функцией. Мы подсказываем ESM3 структуру активного центра и аминокислоты, а также функциональное ключевое слово для ?/?-гидролазы, складки, характерной для гидролитических ферментов.

Появление возможностей с масштабированием . Способность ESM3 решать сложные задачи проектирования белков проявляется с масштабированием. Одна из таких задач, координация атомов, заключается в создании белка на основе подсказок, определяющих атомные положения аминокислот, удаленных по последовательности, но близких по структуре. Это измеряет способность модели достигать точности на атомном уровне при генерации структуры, что имеет решающее значение для проектирования функциональных белков. Способность ESM3 решать эти задачи улучшается с увеличением масштаба, т. е. ESM3 решает более сложные генеративные задачи в зависимости от масштаба.

ESM3 дополнительно улучшается за счет обратной связи с использованием методов согласования, аналогичных обучению с подкреплением на основе обратной связи с человеком (RLHF), применяемому в LLM. Вместо того, чтобы получать обратную связь от людей, ESM3 может самосовершенствоваться, предоставляя обратную связь о качестве своих собственных поколений. Обратная связь от лабораторных экспериментов или существующих экспериментальных данных также может быть использована для согласования поколений ESM3 с биологическим успехом.

Модели ESM3 оцениваются с целью создания белков, удовлетворяющих требованиям координации атомов. ESM3 решает более сложные генеративные задачи в зависимости от масштаба, а возможности более крупных моделей становятся более очевидными после согласования.

Моделирование 500 миллионов лет эволюции

Зеленый флуоресцентный белок, широко известный как GFP, и его семейство флуоресцентных белков являются одними из самых красивых белков в природе. Они встречаются всего в нескольких ветвях древа жизни. Открытие GFP привело к присуждению Нобелевской премии и стало одним из наиболее широко используемых инструментов в биологии, позволяющим ученым видеть белки внутри клеток.

GFP содержит флуоресцентный хромофор — молекулярный компонент, который поглощает один фотон одного цвета с короткой длиной волны, захватывает часть его энергии, а остальную часть высвобождает в виде нового фотона другого цвета и с большей длиной волны. Естественный GFP поглощает синий свет и излучает зеленый свет.

GFP — это белок, который трансформируется сам по себе (его структура представляет собой одиннадцатинитевой ствол со спиралью, проходящей через его центр), и после того, как GFP сворачивается, происходит спонтанная реакция. В центре белка атомы, образующие белковую цепь, преобразуются в новую конфигурацию, создавая флуоресцентный хромофор. Этот механизм уникален. Ни один другой известный белок самопроизвольно не образует флуоресцентный хромофор из своей собственной структуры, что позволяет предположить, что создание флуоресценции сложно даже для природы.

Ученые обнаружили множество вариантов GFP в природе и создали варианты этих природных белков в лаборатории. Самые первые искусственные варианты были обнаружены путем нескольких мутаций, которые увеличивали яркость или меняли цвет. Благодаря новейшим лабораторным методам и методам машинного обучения стало возможным расширить этот поиск и найти более отдаленные варианты, которые отличаются даже на 20% последовательности. Но все же основная часть вариаций функциональных GFP возникла не в результате белковой инженерии, а в результате исследования мира природы.

Процесс эволюции, приводящий к появлению новых флуоресцентных белков, занимает эпохи — история этого семейства белков уходит в глубины естественной истории и геологического времени, когда где-то в далеком прошлом природа изобрела первый флуоресцентный белок. Природные флуоресцентные белки на протяжении сотен миллионов лет отделились от наследственных последовательностей в глубокой истории и стали белками, которыми они являются сегодня.

Ознакомившись со структурой нескольких остатков в ядре природного GFP, ESM3 задумался над созданием кандидатов в новые GFP. Создать одну по чистой случайности из астрономического числа последовательностей и структур (20 229 х 4096 229 , если быть точным — больше возможностей, чем количество атомов в видимой Вселенной) было бы практически невозможно. В первом эксперименте мы протестировали 96 поколений и обнаружили ряд флуоресцирующих белков, в том числе тот, который далек от любого белка в природе. Этот белок, расположенный в лунке B8 нашего экспериментального планшета, был в 50 раз менее ярким, чем природный GFP, и его хромофор созревал в течение недели, а не менее чем за день, но он подавал сигнал о функции в неисследованной части последовательности. космос. Продолжая цепочку размышлений, начиная с последовательности B8, мы создали еще один набор из 96 белков. Мы протестировали их и обнаружили несколько белков, яркость которых аналогична природным GFP, включая самый яркий в лунке C10, который мы называем esmGFP. esmGFP отличается 96 мутациями (из 229 аминокислот 58% последовательности сходны) от ближайшего флуоресцентного белка, встречающегося в природе.

В серии двух экспериментов ESM3 генерирует B8, тусклый GFP, далекий от всех GFP, известных в природе. Начиная с B8, ESM3 генерирует esmGFP, отдаленный GFP с яркостью, аналогичной другим естественным GFP.

В отличие от природы, модели белкового языка не работают в рамках эволюционных ограничений. Но для того, чтобы ESM3 мог решить свою обучающую задачу по предсказанию следующего замаскированного токена, модель должна узнать, как эволюция движется через пространство потенциальных белков. В этом смысле ESM3 можно рассматривать как эволюционный симулятор. Традиционный эволюционный анализ происхождения esmGFP парадоксален, поскольку белок был создан вне естественных процессов, но тем не менее мы можем получить представление с помощью инструментов эволюционной биологии о количестве времени, которое потребуется белку, чтобы отклониться от своего ближайшего соседа по последовательности. посредством естественной эволюции. Мы обнаружили, что встречающиеся в природе GFP со схожим уровнем идентичности последовательностей разделены сотнями миллионов лет эволюции. Используя анализ, аналогичный тому, который можно провести с новым белком, обнаруженным в естественном мире, мы подсчитали, что esmGFP представляет собой эквивалент более чем 500 миллионов лет естественной эволюции, выполненной эволюционным симулятором.

Изображение esmGFP, нового зеленого флуоресцентного белка, генерируемого ESM3, который отличается от других флуоресцентных белков, встречающихся в природе.

Ответственное развитие

EvolutionaryScale — общественная компания. Наша миссия — развивать искусственный интеллект для понимания биологии на благо здоровья человека и общества посредством партнерства с научным сообществом и открытых, безопасных и ответственных исследований.

Молекулярная биология уже пережила один переломный момент на заре эры рекомбинантной ДНК в 1970-х годах, когда ученые разработали технологию генной инженерии. Результатом этого технологического переворота стала революция в нашем понимании генетики, расшифровке генома человека и создании новых инновационных лекарств.

Чтобы направлять свою работу во время быстрого технологического развития, научное сообщество разработало ряд принципов и рекомендаций на конференции Асиломар в 1975 году. Эти принципы привели к созданию надежных структур, которые помогают управлять рисками, которые используются компаниями, занимающимися синтезом нуклеотидов, молекулярными поставщики биологических препаратов и регулирующие органы.

Сейчас, когда мы вступаем в эпоху, когда мы можем разрабатывать и программировать новую биологию, мы обращаем внимание на историю нашей области, а также на новые принципы и рекомендации , предлагаемые растущим сообществом исследователей, исследующих границы биологического дизайна.

Руководствуясь этим вдохновением, мы создали концепцию ответственного развития, которая обеспечивает прозрачность и ясность в нашей работе по достижению нашей миссии.

Основными принципами нашей структуры являются

Мы расскажем о преимуществах и рисках нашего исследования.
Мы будем активно и тщательно оценивать риск наших моделей перед их публичным развертыванием.
Мы примем стратегии снижения рисков и меры предосторожности.
Мы будем работать с заинтересованными сторонами в правительстве, политике и гражданском обществе, чтобы держать их в курсе.

Открытая модель

С самого начала проект ESM стремился к открытой науке с выпуском кода и моделей, и наши обязательства продолжаются. Мы считаем, что обмен исследованиями и кодами ускоряет прогресс и способствует пониманию и снижению рисков, что в конечном итоге максимизирует положительное влияние на мир.

Было невероятно видеть творческое и эффективное применение моделей ESM в исследованиях и промышленности. Например, Хи и др. использовали ESM-1v и ESM-1b для разработки антител , улучшая терапевтически значимые характеристики, такие как аффинность связывания, термостабильность и нейтрализация вируса. BioNTech и InstaDeep доработали языковую модель ESM для белков-шипов COVID для обнаружения вариантов, которые представляют более высокий риск для здоровья населения , успешно отметив все 16 вызывающих беспокойство вариантов до того, как они были определены ВОЗ. Брандес и др. использовали ESM-1b для прогнозирования клинических эффектов мутаций и в настоящее время являются наиболее мощным методом для этой важной задачи. Марсилья и др. использовали ESM-1v для разработки новых вариантов белка анти-CRISPR , которые поддерживают функциональность целевого редактирования, одновременно уменьшая нецелевые побочные эффекты. Шанкер и др. использовали ESM-IF1 для управления эволюцией разнообразных белков , включая подтвержденные в лаборатории высокоэффективные антитела против SARS-CoV-2. Ю и др. точно настроил ESM-1b для прогнозирования функций ферментов , включая редкие и недостаточно изученные ферменты, и экспериментально подтвердил эти предсказания. Розен и др. использовали встраивания ESM2 для построения представлений генов в одноклеточной модели . Хойе и др. точно настроил ESM-IF1 на структурах антител для достижения самых современных показателей в восстановлении последовательностей в регионах CDR и для разработки антител с высокой аффинностью связывания. Это лишь малая часть потрясающей работы, проделанной на платформе ESM!

Мы продолжим разрабатывать и выпускать открытые модели для ускорения исследований и расширения возможностей научного сообщества. Это начинается с выпуска весов и кода для открытой модели ESM3 1.4B, чтобы позволить ученым и разработчикам развивать идеи и архитектуру ESM3. Мы рады видеть, что вы создаете!

Куда мы направляемся

Мы верим в будущее, в котором ИИ сможет помочь нам понять сложные системы жизни на самом базовом уровне, сделать новые научные открытия, которые изменят наше понимание биологии, помочь нам найти лекарства от болезней и построить более устойчивый мир.

ESM3 — инструмент для ученых. Наш API и открытая модель позволяют ученым исследовать границы дизайна белков и синтетической биологии, а также изобретать новые решения некоторых наиболее важных проблем, стоящих перед нашим миром.

Если вы работаете над такого рода проблемами, мы хотели бы услышать, как, по вашему мнению, ESM3 может помочь, и будем отдавать приоритет бета- доступу к API, исходя из потенциала расширения границ научных знаний и создания новых инструментов, которые могут принести пользу миру.

Мы также разрабатываем специализированные версии ESM3, чтобы разблокировать приложения, находящиеся на переднем крае разработки лекарств. Те же возможности, которые можно использовать для создания одного из самых сложных и красивых белков в природе, помогут ученым создавать новые лекарства.

ESM3 — это только первый шаг на нашем пути программирования биологии. Мы думаем, что в будущем будут все более мультимодальные модели, которые будут учиться на биологических данных и интегрироваться на всех уровнях жизни, от отдельных молекул до клеток, что будет способствовать способности человечества понимать и программировать биологию для построения лучшего мира.

Источник: www.evolutionaryscale.ai

ESM3: Моделирование 500 миллионов лет эволюции с помощью языковой модели

Комментарии: