ГЕНЕРАТИВНЫЕ МОДЕЛИ ДЛЯ СОЗДАНИЯ ХИМИЧЕСКИХ СТРУКТУР

2019-07-12 00:33

архитектура нейронных сетей, Теория эволюции

Еще года 3 назад решение задачи обратного QSAR , то есть генерации химических структур под заданные свойства (также называемая de novo дизайном), казалась нерешаемой. В основном, она решалась виртуальным скринингом. То есть исследователь создавал модель, которая могла достаточно точно предсказывать свойства интересующего соединения, а дальше эта модель применялась ко множеству сгенерированных каким-то образом "виртуальных" молекул и выбирались наиболее интересные. Виртуальный скрининг и сейчас - главный способ поиска интересных структур. Проблема этого подхода заключается в том, что (1) нет гарантии, что ты какую-то классную структуру не пропустил, (2) долго - шанс, что ты не пропустил что-то, растет с количеством проверенных структур.

Поэтому гораздо интереснее и ближе к реальной жизни решить задачу не Y=f(X), а X=f(Y). Но опять таки проблема - химическая структура обычно представляется набором чисел - с ними обычные методы машинного обучения справляются. А структурные формулы - это графы, с ними все гораздо хуже. Более или менее решена задача (давно были найдены некоторые решения, например, графовые ядра) для создания модели Y=f(граф). Проблема была только в том, что такие вычисления гораздо более времязатратны, чем классический подход через дескрипторы, а точность модели примерно такая же. То есть большого смысла в модели Y=f(граф), кроме некоторых недоказанных теоретических преимуществ, касательно ограниченности дескрипторов или более широкого потенциального домена применимости, не было.

Так что решения обратной задачи найдено не было... Проблема тут в том, что в конечном итоге с использованием методов машинного обучения можно исхитрится и вычислить дескрипторы, которые соответствуют интересному соединению. Но (1) нет никакой гарантии, что они вообще какому-то соединению могут соответствовать (например, низкая молекулярная масса и очень высокая липофильность), (2) даже если они соответствуют - как соединение-то сгенерировать, имея только набор чисел?

Решение пришло со стороны глубокого обучения и анализа текстов. Кто-то сообразил (не могу найти, кто был первый), что SMILES строка это просто текст и можно сделать автокодировщик, который эту строку съест на вход и на выход даст точно такую же строку. Это типа как перевести текст с русского на русский. Для этого существуют в глубоком обучении и text mining'е так называемые seq2seq рекуррентные модели. Хоть, на первый взгляд, смысла в этом очень мало, но смысл есть, и глубокий. Дело в том, что автоэнкодеры состоят из двух частей - энкодер преобразует строку в набор чисел, а декодер из чисел делает назад SMILES строку. Догадались, что было дальше? Эти числа - и есть дескрипторы! Теперь, если я могу насэмплировать дескрипторную строку, которой должны обладать интересные соединения - то и восстановить структуру из нее легче легкого - я их даю декодеру и он мне сгенерирует SMILES молекулы. Все, конечно, не так легко, чаще всего генерируется чушь, а не SMILES (потому что опять таки никаких гарантий не было, что эти числа соответствуют SMILESам), но то что остается - вполне себе разумно. Было не раз показано, что в числе сгенерированных структур часто встречаются интересующие. Принцип понятен наверное.

Теперь уже очевидно для всех, что мы нащупали путь, как решать обратную задачу моделирования, то есть восстанавливать химическую структуру по интересующему свойству. За этим будущее, однозначно. Поэтому в хемоинформатике произошел взрыв исследований по данной тематике: дизайн лекарств и материалов - эти подходы можно применять везде! Например, 3 из 5 самых цитируемых работ 2018 года по хемоинформатике посвящены этому (я провел сам анализ):

1. Application of Generative Autoencoder in De Novo Molecular Design, 10.1002/minf.201700123

2. Generative Recurrent Networks for De Novo Drug Design, 10.1002/minf.201700111

3. De Novo Design of Bioactive Small Molecules by Artificial Intelligence, 10.1002/minf.201700153

Интересную статью по применению GTM для генерации молекул под свойства сделали в группе Варнека (в ней поучаствовал наш выпускник ) - https://pubs.acs.org/doi/10.1021/acs.jcim.8b00751

Потом у Бориса вышла отдельная статья по этой теме: https://www.mdpi.com/2218-273X/8/4/131

Чтоб вы оценили насколько быстро идет развитие - очень свежая статья (4 июля) о том, что лучше использовать рандомизованные SMILES для обучения генеративных моделей: https://chemrxiv.org/articles/Randomized_SMILES_Strings_Improve_the_Quality_of_Molecular_Generative_Models/8639942

Вообще, сейчас же по этой тематике настолько много публикуется, что очень сложно уследить за этой темой. Статья дня сегодня - очень хороший обзор по этой теме, кому интересно разобраться и при этом не читать целую уйму публикаций (около 30-40), которые вышли в последние 2 года по этой тематике.

Источник: arxiv.org



		ГЕНЕРАТИВНЫЕ МОДЕЛИ ДЛЯ СОЗДАНИЯ ХИМИЧЕСКИХ СТРУКТУР
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-07-12 00:33 архитектура нейронных сетей, Теория эволюции Еще года 3 назад решение задачи обратного QSAR , то есть генерации химических структур под заданные свойства (также называемая de novo дизайном), казалась нерешаемой. В основном, она решалась виртуальным скринингом. То есть исследователь создавал модель, которая могла достаточно точно предсказывать свойства интересующего соединения, а дальше эта модель применялась ко множеству сгенерированных каким-то образом "виртуальных" молекул и выбирались наиболее интересные. Виртуальный скрининг и сейчас - главный способ поиска интересных структур. Проблема этого подхода заключается в том, что (1) нет гарантии, что ты какую-то классную структуру не пропустил, (2) долго - шанс, что ты не пропустил что-то, растет с количеством проверенных структур. Поэтому гораздо интереснее и ближе к реальной жизни решить задачу не Y=f(X), а X=f(Y). Но опять таки проблема - химическая структура обычно представляется набором чисел - с ними обычные методы машинного обучения справляются. А структурные формулы - это графы, с ними все гораздо хуже. Более или менее решена задача (давно были найдены некоторые решения, например, графовые ядра) для создания модели Y=f(граф). Проблема была только в том, что такие вычисления гораздо более времязатратны, чем классический подход через дескрипторы, а точность модели примерно такая же. То есть большого смысла в модели Y=f(граф), кроме некоторых недоказанных теоретических преимуществ, касательно ограниченности дескрипторов или более широкого потенциального домена применимости, не было. Так что решения обратной задачи найдено не было... Проблема тут в том, что в конечном итоге с использованием методов машинного обучения можно исхитрится и вычислить дескрипторы, которые соответствуют интересному соединению. Но (1) нет никакой гарантии, что они вообще какому-то соединению могут соответствовать (например, низкая молекулярная масса и очень высокая липофильность), (2) даже если они соответствуют - как соединение-то сгенерировать, имея только набор чисел? Решение пришло со стороны глубокого обучения и анализа текстов. Кто-то сообразил (не могу найти, кто был первый), что SMILES строка это просто текст и можно сделать автокодировщик, который эту строку съест на вход и на выход даст точно такую же строку. Это типа как перевести текст с русского на русский. Для этого существуют в глубоком обучении и text mining'е так называемые seq2seq рекуррентные модели. Хоть, на первый взгляд, смысла в этом очень мало, но смысл есть, и глубокий. Дело в том, что автоэнкодеры состоят из двух частей - энкодер преобразует строку в набор чисел, а декодер из чисел делает назад SMILES строку. Догадались, что было дальше? Эти числа - и есть дескрипторы! Теперь, если я могу насэмплировать дескрипторную строку, которой должны обладать интересные соединения - то и восстановить структуру из нее легче легкого - я их даю декодеру и он мне сгенерирует SMILES молекулы. Все, конечно, не так легко, чаще всего генерируется чушь, а не SMILES (потому что опять таки никаких гарантий не было, что эти числа соответствуют SMILESам), но то что остается - вполне себе разумно. Было не раз показано, что в числе сгенерированных структур часто встречаются интересующие. Принцип понятен наверное. Теперь уже очевидно для всех, что мы нащупали путь, как решать обратную задачу моделирования, то есть восстанавливать химическую структуру по интересующему свойству. За этим будущее, однозначно. Поэтому в хемоинформатике произошел взрыв исследований по данной тематике: дизайн лекарств и материалов - эти подходы можно применять везде! Например, 3 из 5 самых цитируемых работ 2018 года по хемоинформатике посвящены этому (я провел сам анализ): 1. Application of Generative Autoencoder in De Novo Molecular Design, 10.1002/minf.201700123 2. Generative Recurrent Networks for De Novo Drug Design, 10.1002/minf.201700111 3. De Novo Design of Bioactive Small Molecules by Artificial Intelligence, 10.1002/minf.201700153 Интересную статью по применению GTM для генерации молекул под свойства сделали в группе Варнека (в ней поучаствовал наш выпускник ) - https://pubs.acs.org/doi/10.1021/acs.jcim.8b00751 Потом у Бориса вышла отдельная статья по этой теме: https://www.mdpi.com/2218-273X/8/4/131 Чтоб вы оценили насколько быстро идет развитие - очень свежая статья (4 июля) о том, что лучше использовать рандомизованные SMILES для обучения генеративных моделей: https://chemrxiv.org/articles/Randomized_SMILES_Strings_Improve_the_Quality_of_Molecular_Generative_Models/8639942 Вообще, сейчас же по этой тематике настолько много публикуется, что очень сложно уследить за этой темой. Статья дня сегодня - очень хороший обзор по этой теме, кому интересно разобраться и при этом не читать целую уйму публикаций (около 30-40), которые вышли в последние 2 года по этой тематике. Источник: arxiv.org Комментарии:

ГЕНЕРАТИВНЫЕ МОДЕЛИ ДЛЯ СОЗДАНИЯ ХИМИЧЕСКИХ СТРУКТУР

Комментарии: