ГЕНЕРАТИВНЫЕ МОДЕЛИ ДЛЯ СОЗДАНИЯ ХИМИЧЕСКИХ СТРУКТУР

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Сбор средств на аренду сервера для ai-news

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация




RSS


RSS новости

Новостная лента форума ailab.ru


Еще года 3 назад решение задачи обратного QSAR , то есть генерации химических структур под заданные свойства (также называемая de novo дизайном), казалась нерешаемой. В основном, она решалась виртуальным скринингом. То есть исследователь создавал модель, которая могла достаточно точно предсказывать свойства интересующего соединения, а дальше эта модель применялась ко множеству сгенерированных каким-то образом "виртуальных" молекул и выбирались наиболее интересные. Виртуальный скрининг и сейчас - главный способ поиска интересных структур. Проблема этого подхода заключается в том, что (1) нет гарантии, что ты какую-то классную структуру не пропустил, (2) долго - шанс, что ты не пропустил что-то, растет с количеством проверенных структур.

Поэтому гораздо интереснее и ближе к реальной жизни решить задачу не Y=f(X), а X=f(Y). Но опять таки проблема - химическая структура обычно представляется набором чисел - с ними обычные методы машинного обучения справляются. А структурные формулы - это графы, с ними все гораздо хуже. Более или менее решена задача (давно были найдены некоторые решения, например, графовые ядра) для создания модели Y=f(граф). Проблема была только в том, что такие вычисления гораздо более времязатратны, чем классический подход через дескрипторы, а точность модели примерно такая же. То есть большого смысла в модели Y=f(граф), кроме некоторых недоказанных теоретических преимуществ, касательно ограниченности дескрипторов или более широкого потенциального домена применимости, не было.

Так что решения обратной задачи найдено не было... Проблема тут в том, что в конечном итоге с использованием методов машинного обучения можно исхитрится и вычислить дескрипторы, которые соответствуют интересному соединению. Но (1) нет никакой гарантии, что они вообще какому-то соединению могут соответствовать (например, низкая молекулярная масса и очень высокая липофильность), (2) даже если они соответствуют - как соединение-то сгенерировать, имея только набор чисел?

Решение пришло со стороны глубокого обучения и анализа текстов. Кто-то сообразил (не могу найти, кто был первый), что SMILES строка это просто текст и можно сделать автокодировщик, который эту строку съест на вход и на выход даст точно такую же строку. Это типа как перевести текст с русского на русский. Для этого существуют в глубоком обучении и text mining'е так называемые seq2seq рекуррентные модели. Хоть, на первый взгляд, смысла в этом очень мало, но смысл есть, и глубокий. Дело в том, что автоэнкодеры состоят из двух частей - энкодер преобразует строку в набор чисел, а декодер из чисел делает назад SMILES строку. Догадались, что было дальше? Эти числа - и есть дескрипторы! Теперь, если я могу насэмплировать дескрипторную строку, которой должны обладать интересные соединения - то и восстановить структуру из нее легче легкого - я их даю декодеру и он мне сгенерирует SMILES молекулы. Все, конечно, не так легко, чаще всего генерируется чушь, а не SMILES (потому что опять таки никаких гарантий не было, что эти числа соответствуют SMILESам), но то что остается - вполне себе разумно. Было не раз показано, что в числе сгенерированных структур часто встречаются интересующие. Принцип понятен наверное.

Теперь уже очевидно для всех, что мы нащупали путь, как решать обратную задачу моделирования, то есть восстанавливать химическую структуру по интересующему свойству. За этим будущее, однозначно. Поэтому в хемоинформатике произошел взрыв исследований по данной тематике: дизайн лекарств и материалов - эти подходы можно применять везде! Например, 3 из 5 самых цитируемых работ 2018 года по хемоинформатике посвящены этому (я провел сам анализ):

1. Application of Generative Autoencoder in De Novo Molecular Design, 10.1002/minf.201700123

2. Generative Recurrent Networks for De Novo Drug Design, 10.1002/minf.201700111

3. De Novo Design of Bioactive Small Molecules by Artificial Intelligence, 10.1002/minf.201700153

Интересную статью по применению GTM для генерации молекул под свойства сделали в группе Варнека (в ней поучаствовал наш выпускник ) - https://pubs.acs.org/doi/10.1021/acs.jcim.8b00751

Потом у Бориса вышла отдельная статья по этой теме: https://www.mdpi.com/2218-273X/8/4/131

Чтоб вы оценили насколько быстро идет развитие - очень свежая статья (4 июля) о том, что лучше использовать рандомизованные SMILES для обучения генеративных моделей: https://chemrxiv.org/articles/Randomized_SMILES_Strings_Improve_the_Quality_of_Molecular_Generative_Models/8639942

Вообще, сейчас же по этой тематике настолько много публикуется, что очень сложно уследить за этой темой. Статья дня сегодня - очень хороший обзор по этой теме, кому интересно разобраться и при этом не читать целую уйму публикаций (около 30-40), которые вышли в последние 2 года по этой тематике.


Источник: arxiv.org

Комментарии: