ИИ «на массе»: машинлернерам нужны белки

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Как всякий фанат ждет выхода очередной серии любимого сериала, так и каждый структуральщик хочет скорее увидеть новый AlphaFold. И вот в мае команда из Google DeepMind во главе с Джоном Джампером представила AlphaFold3. Модель предсказывает пространственную укладку белков еще точнее, чем AF2. Но ее главная фишка — это способность прогнозировать структуру белковых комплексов и взаимодействия между белками и малыми лигандами или ДНК/РНК. AF3 принимает на вход последовательности нескольких молекул и выдает совместные 3D-картинки.

Нейросеть превосходит как классические программы докинга (Vina), так и последние тулы прогнозирования структур мультибелковых комплексов (AlphaFold-Multimer). Обгоняет AF3 и аналогичную модель RoseTTAFold All-Atom — ее в марте выпустила конкурирующая лаборатория небезызвестного Дэвида Бэйкера. Чтобы добиться результатов, пришлось существенно доработать архитектуру нейросети AF2 ? Например, прибегнуть к диффузионным моделям. Однако в отличие от прошлого раза компания не открыла исходный код и веса модели, а только предоставила доступ к веб-сервису и поделилась «псевдокодом», поскольку не хочет, чтобы фармкомпании коммерциализировали инновацию. Сторонники open-source в бешенстве, энтузиасты уже пытаются воссоздать алгоритм и сделать его полностью доступным, были даже взломы сервера AF3 ? На этом фоне DeepMind обещала открыть исходный код для академических исследователей в течение 6 месяцев.

Если AlphaFold и другие структурные модели, требующие для обучения экспериментальные данные, — уже притча во языцех, то сейчас набирает силу новый подход — изыскать скрытый смысл напрямую в аминокислотных последовательностях. Подобно тому как ChatGPT постигает закономерности человеческих текстов. Речь про белковые языковые модели (pLM). Они уже показали очень любопытные результаты, в том числе для предсказания фолдинга и de novo дизайна белков. Так, недавно ученые из стартапа Profluent под руководством Али Мадани получили с помощью pLM первые искусственные CRISPR-ножницы ? и даже «порезали» гены человека!

Известно, что для генно-инженерных целей наиболее популярен SpCas9, хотя в природе много и других систем, которые ученые продолжают интенсивно искать в сообществах микроорганизмов ? Но машинлернерам из Беркли естественного разнообразия оказалось мало. Специалисты, проанализировав сотни известных микробных геномов и метагеномов, обнаружили более миллиона оперонов и создали целый Атлас CRISPR-Cas. Далее они дообучили белковую языковую модель ProGen, которая умеет предсказывать следующие аминокислоты в цепочке, на собранных данных и попросили сгенерировать миллионы Cas-нуклеаз. Потом 200 наиболее перспективных последовательностей они синтезировали в лаборатории и трансфицировали плазмидами с ними (+гидовой РНК) человеческие клетки линии HEK293T. Многие ИИ-редакторы реально редактировали гены, а один, названный OpenCRISPR-1, показал даже меньшую офф-таргет активность, чем природный белок. Разработчики надеются, что ИИ-системы будут точными и универсальными и однажды дойдут до клиники.


Источник: vk.com

Комментарии: