Замена SMILES для более надежного использования в текстовых автоэнкодерах

2020-11-09 07:25

Открытие новых материалов и функциональных молекул может помочь решить некоторые из самых насущных проблем общества, начиная от эффективного сбора и хранения энергии и заканчивая выявлением новых кандидатов на фармацевтические препараты. Традиционно проектирование материи-обычно обозначаемое как обратное проектирование-основывалось в основном на человеческой интуиции и высокопроизводительном виртуальном экранировании. В последние несколько лет возник значительный интерес к компьютерным моделям, основанным на эволюционных или глубоких методах обучения. Основная проблема здесь заключается в том, что стандартное молекулярное представление строк SMILES показывает существенные недостатки в этой задаче, поскольку большие доли строк не соответствуют действительным молекулам. Здесь мы решаем эту проблему на фундаментальном уровне и вводим SЭльфы (SELF-referencIng Embedded Strings), строковое представление молекул, которое является 100% надежным. Каждый SЭльфы строка соответствует допустимой молекуле, а SЭльфы может представлять каждую молекулу. СЭльфы может быть непосредственно применен в произвольных моделях машинного обучения без адаптации моделей; каждый из генерируемых кандидатов молекул является действительным. В наших экспериментах внутренняя память модели хранит на два порядка больше разнообразных молекул, чем аналогичный тест с улыбками. Кроме того, поскольку все молекулы действительны, это позволяет объяснить и интерпретировать внутреннюю работу генеративных моделей.

1. Введение

Появление компьютеров позволило создать область вычислительной химии и химинформатики, которая занимается разработкой и применением методов расчета, обработки, хранения и поиска молекулярной информации в вычислительных системах. Возникающие проблемы молекулярного представления и идентификации были решены с помощью SMILES (Simplified Molecular Input Line Entry System), которая была изобретена Дэвидом Вайнигером в 1988 году [1]. SMILES-это простое строковое представление, основанное на принципах молекулярной теории графов и позволяющее определять молекулярную структуру с помощью простых правил. С тех пор SMILES стал стандартным инструментом в вычислительной химии и до сих пор является де-факто стандартом для строкового представления молекулярной информации в силико.

Помимо предсказания молекулярных свойств с высокой точностью, одной из главных задач в вычислительной химии является разработка новых функциональных молекул. Исследование всего химического пространства-даже для относительно малых молекул-затруднительно из-за комбинаторного взрыва возможных и стабильных химических структур [2–4]. Значительные последние достижения в области искусственного интеллекта и машинного обучения (мл), в частности разработка и контроль генеративных моделей, нашли свое отражение в химических исследованиях. Там ученые в настоящее время адаптируют эти новые методы для эффективного предложения новых молекул с превосходными свойствами [5–10]. Для идентификации новых молекул входные и выходные представления во многих случаях представляют собой строки смайлов. Это, однако, создает существенную проблему: значительная часть полученных строк смайлов не соответствует действительным молекулам. Они либо синтаксически недействительны, то есть даже не соответствуют молекулярному графу, либо нарушают основные химические правила, такие как максимальное число валентных связей между атомами. Исследователи предложили множество частных решений для преодоления этих проблем. Например, путем адаптации моделей машинного обучения таким образом, чтобы они имели дело с недействительностью [11, 12]. Хотя это решает проблемы для конкретных моделей, это не обеспечивает универсального решения для всех текущих (и будущих) возможных моделей. Другое решение заключается в изменении самого определения улыбки. Этот подход был выдвинут в работе О'Бойла и Далке, обозначенной DeepSMILES [13]. DeepSMILES также может быть использован в качестве прямого ввода для произвольных моделей машинного обучения и впервые поднял вопрос о том, каким может быть идеальное строковое представление молекул для генеративных задач. DeepSMILES преодолевает большинство синтетических проблем для создания графиков, однако он не имеет дела с семантическими ограничениями, которые вводятся конкретной областью. Таким образом, более чем через 30 лет после изобретения ВЕЙНИНГЕРОМ смайлов применение генеративных моделей для проектирования молекул de-novo выиграло бы от нового способа описания молекул на компьютере.

Здесь мы представляем SЭльфы (SELF-referencIng Embedded Strings), строковое представление молекулярных графов, которое является 100% надежным. Под этим мы подразумеваем, что каждый SЭльфы соответствует действительной молекуле, даже совершенно случайным строкам. Кроме того, каждая молекула может быть описана как SЭльфы. СЭльфы они независимы от модели машинного обучения и могут использоваться в качестве прямого ввода без каких-либо адаптаций моделей.

Мы сравниваем SЭльфы с генеративными моделями на основе SMILES ML, такими как вариационные автоэнкодеры (VAE) [14] и генеративные состязательные сети (GANs) [15]. Мы находим, что выход полностью верен, и модели кодируют на порядки более разнообразные молекулы с помощью SЭльфы чем с улыбками. Эти результаты важны не только для обратного конструирования молекул, но и для интерпретации внутренней работы нейронных сетей в химической области.

2. Струнные представления молекул

Мы описываем строковые представления SMILES и SЭльфы с помощью небольшой биомолекулы 3,4-метилендиоксиметамфетамина (МДМА). Строка улыбок на рисунке 1А) описывает последовательность соединенных атомов (зеленый цвет). Скобки обозначают ветви и, А числа обозначают замыкания колец на атомах, которые соединены. В SЭльфы, фигура 1(B) информация о длине ветви, а также размере кольца хранится вместе с соответствующими идентификаторами Ветка и Кольцо. Для этого символ после Ветка и Кольцо обозначает число, которое интерпретируется как длина. Таким образом, исключается возможность недопустимой синтаксической строки (например, строки с большим количеством открывающих, чем закрывающих скобок). Кроме того, каждый SЭльфы символы генерируются с использованием правил деривации, см. таблицу 2. Формально таблица соответствует формальной грамматике из теоретической информатики [18]. Вывод одного символа зависит от состояния самого вывода $mathbf{X_n}$ . Цель этих правил состоит в том, чтобы обеспечить действительность химических валентных связей.

Figure 1.

Рисунок 1. Описание молекулярного графа (маленькой органической молекулы, 3,4-метилендиоксиметамфетамина) с помощью двух удобных для компьютера струнных методов. А) вывод молекулярного графа с помощью смайлов. Основная строка (зеленая) дополняется ветвями (определяемыми открывающей и закрывающей скобками) и кольцами (определяемыми уникальными числами после атомов, которые соединены). Обратите внимание, что и ветви, и кольца являются нелокальными операциями. (B) вывод молекулярного графа с использованием SELFIES. Основная строка выводится с помощью набора правил таким образом, чтобы число валентных связей на атом не превышало физических пределов. Символ после ветви интерпретируется как количество символов S ELFIES, полученных внутри ветви. Его соответствующее численное значение показано на рис .2. Символ после кольца также интерпретируется как число, указывающее, что текущий атом соединен спредыдущим атомом ( Q + 1)st. Таким образом, каждая информация в строке (за исключением замыкания кольца) является локальной и допускает эффективные правила вывода.

Figure 2.

Рисунок 2. Правила деривации SELFIES для малых органических молекул. Мыобозначаем символы S ELFIES как заключенные в скобки, а символы SMILES-без скобок. Каждый символ SELFIES интерпретируется как вектор правил (верхняя красная линия). Символ SELFIES будет заменен строкой на пересечении вектора правил и состояния деривации деривации (слева, зеленый цвет). Строка может содержать атом или другое состояние вывода. Вывод начинается в состоянии $mathbf{X}_0$ (фиолетовый), и продолжается в состоянии, ранее выведенном. Состояние деривации заботится о синтаксических и химических ограничениях, таких как максимальное число валентных связей. Правила в государстве $mathbf{X}_n$ для n = 1-n = 4 рассчитаны такие, что следующий атом может использовать до n валентных связей. $B(Q,mathbf{X_n})$ расшифровывается как функция, создающая ветвь в графике с использованием следующих Q символов и начинающаяся в состоянии $mathbf{X_n}$ . R(Q) означает функцию, которая создает кольца, от текущего атома до (Q + 1)-го ранее полученного атома. В обоих случаях буква, следующая за R или B , интерпретируется как число Q, которое определено в последней строке таблицы. Символ обозначает пустую строку, а ign означает, что последующий символ S ELFIES игнорируется. Эта таблица охватывает все неионные молекулы в базе данных QM9 [16, 17]. Ионы, стереохимия и более крупные молекулы также могут быть представлены простым расширением этой таблицы.

В качестве простого примера строка s ELFIES [F] [=C] [=C] [#N] выводится в SMILES следующим образом. Здесь и везде в рукописи мыобозначаем символы S ELFIES как заключенные в скобки и символы SMILES без скобок. Начиная с штата $mathbf{X_0}$ , первый символ (вектор правил) [F] приводит к F $mathbf{X_1}$ . Вывод второго символа впоследствии продолжается в государстве $mathbf{X_1}$ . Общий вывод дан по формуле

Конечная молекула FC=C=N, удовлетворяющая всем правилам валентной связи, представляет собой 2-Фторэтенимин. На этом этапе ограничения валентной связи выполняются для последующих атомов и ветвей. Единственными оставшимися потенциальными источниками нарушения этих ограничений являются места назначения колец. Поэтому мы вставляем кольца только в том случае, если число валентных связей в мишени еще не достигло максимума. Таким образом , используя правила, приведенные в таблице 2, можно гарантировать 100% валидность для малых биомолекул. Это прямо вперед, чтобы расширить охват для более широких классов молекул, как мы опишем ниже.

Вывод правила в таблице 2 формируются систематически и может быть построен полностью автоматически только от данных, как мы покажем в дополнительной информации (Си), который доступен онлайн на https://stacks.iop.org/J/1/045024/mmedia. Кроме того, ссамого малыша не ограничиваются молекулярными графами, но может применяться и в других графической типы данных в естественных науках, которые имеют дополнительный домен-зависимые ограничения. Приведем пример квантово-оптических экспериментов в физике с компонентно-зависимой связностью [19], в СИ.

Неформальные беседы с несколькими исследователями приводят к утверждению, что улыбки "читаемы". Читаемость находится в глазах смотрящего, но излишне говорить, что SELFIES так же читаемы, как и рисунок 1(B). После небольшого знакомства функциональные группы и связность могут быть выведены человеческой интерпретацией для небольших молекулярных фрагментов.

3. Эффекты случайных мутаций

Самый простой способ сравнить надежность между SMILES и SELFIES - это начать с допустимой строки , такой как MDMA на рис.1, и ввести случайные мутации символов строки. На рисунке 3(а) мы показываем три примера одной случайно введенной Строковой мутации. Мы оцениваем полученную валидность с помощью RDKit [20]. Все три строки смайлов недействительны. В первом случае отсутствует второй кольцевой идентификатор для 2, во втором-замыкающая скобка для ветви, а в последнем нарушаются номера валентных связей фтора. В отличие от этого, все мутировавшие S-эльфы соответствуют действительным молекулам. Мы можем проанализировать одну специфическую мутацию , которая изменяет структуру SELFIES, в частности средний график S ELFIES на рис.3(Б). Там, начиная со строки S ELFIES на рис.1(B), первое [Ring1] (фиолетовое) заменяется на [#N]. Как следствие, фиолетовое кольцо не вводится, но двойная связь с атомом азота добавляется к основной струне, что приводит к состоянию деривации $mathbf{X}_1$ . Кроме того, символ, обозначающий размер кольца ([#N], что означает Q = 4), теперь выводится как нормальный атом. Каково текущее состояние $mathbf{X}_1$ , вводится только одна связь (не тройная связь) с атомом азота, и вывод завершается. Этот пример показывает более сложный способ, как SELFIES не допускает недопустимых молекул.

Figure 3.

Рисунок 3. Случайные мутации SMILES и SELFIES молекулы на рис.1(а). (A) одиночные мутации привели к трем недействительным строкам SMILES, в то время как все SELFIES производят действительные молекулы. В (B) и (C) исходная молекула мутирует два и три раза соответственно. Во всех случаях строки SMILES являются недействительными, в то время как SELFIES производят действительные молекулы, которые все больше и больше отклоняются от исходной молекулы.

На рисунках 3(B) и (C) мы вводим две и три мутации соответственно. Опять же, все улыбки недействительны, и все SELFIES являются действительными молекулами. В целом вероятность валидности для улыбок с одной мутацией, начиная с МДМА, составляет 26,6%, 9,0% и 3,7% для одной, двух и трех мутаций соответственно. DeepSMILES [13] улучшили эти значения, чтобы обнаружить, что одиночные, двойные и тройные мутации для MDMA приводят к 58,9%, 35,8% и 24,3% валидности. Наконец-то-sELFIES, действительны в 100% случаев. Три примера для каждого случая можно увидеть на правой панели рисунка 3, подробности приведены в таблице 1.

Таблица 1. Результаты для bitflip (начиная с допустимого графика MDMA, используя только вовлеченные токены), случайной последовательности, VAE и GAN.

	1 БитФлип	10 битфлипов	VAE			GAN
	Допустимость	Допустимость	Допустимость	Реконструкция	Разнообразие	Разнообразие
УЛЫБКИ	26.6%	0.2%	71.9%	66.2%	5.9%	18.5%
DeepSMILES	58.9%	4.7%	81.4%	79.8%	67.3%	-
SELFIES	100%	100%	100%	98.2%	82.9%	78.9%

4. Результаты для глубоких генеративных моделей

Генеративные модели-это идеальное применение 100% надежного представления молекул. Одним из ярких примеров является вариационный автоэнкодер (VAE) [14], который недавно был использован для проектирования новых молекул [21]. В области химии VAE используется для преобразования дискретного молекулярного графа в непрерывное представление, которое может быть оптимизировано с помощью градиентных или байесовских методов. Как показано на рис. 4, он состоит из двух нейронных сетей, кодера и декодера. Кодер принимает строковое представление молекулы и кодирует его в непрерывное внутреннее представление (подробности о кодировании и декодировании можно увидеть в СИ). Там каждая молекула соответствует своему местоположению в многомерном пространстве. Число нейронов определяет размерность в латентном пространстве. Декодер занимает позицию в латентном пространстве и преобразует ее в дискретную молекулу (например, опять же, однократное кодирование улыбок или SELFIES).

Figure 4.

Рисунок 4. Вариационный автоэнкодер (VAE) для химии. VAE-это глубокая нейронная сеть, которая принимает молекулу в качестве входного сигнала, кодирует ее в непрерывное латентное пространство и восстанавливает ее оттуда с помощью декодера. Латентное пространство-это высокомерное пространство, где каждая точка может быть декодирована в дискретную последовательность. В отличие от стандартного автоэнкодера, латентные нейроны (зеленые) кодируют гауссовы распределения (среднее и дисперсия), и выходные данные отбираются из этих распределений. Мы представляем молекулярные графики, используя однократные кодировки SMILES и SELFIES.

Цель Ваэ-научиться реконструировать молекулы. После тренировки можно сканировать скрытое пространство для оптимизации химических свойств. Подробности можно найти в таблице 1. Как только оптимальная точка определена, декодер может сопоставить ее с молекулярной строкой. Для любого применения VAEs в химии желательно, чтобы все точки в скрытом пространстве соответствовали действительным молекулам.

Мы экспериментируем со стандартным Ваэ , который обучаем реконструировать молекулы из эталонного набора данных QM9 [16, 17]. Для этой задачи мы используем как улыбки, так и SELFIES. После тренировки мы анализируем валидность латентного пространства. Мы делаем это путем выборки скрытых точек пространства из произвольно ориентированных плоскостей в многомерном пространстве. Используя смайлы, мы находим на рис. 5(А), что только небольшая часть пространства соответствует действительным молекулам. Большая часть декодируется в синтаксически или семантически недействительные строки, которые не обозначают молекулы. В отличие от этого, используя SELFIES на рис.5(Б) мы видим, что все пространство соответствует действительным молекулам. Мы хотим подчеркнуть, что 100% допустимое латентное пространство не только существенно для методов обратного проектирования в химии, но и существенно для интерпретации моделей [24-26], в частности для интерпретации внутренних представлений [22, 23] в научном контексте [27]. Интуиция подсказывает, что человеку может быть трудно осмыслить значение областей, которые ведут к нефизическим молекулярным структурам. Методы визуализации (которые могут помочь в понимании того, что модель научилась), которые связывают внутреннее представление с физическими свойствами, не могут дать никакого понимания в недействительных областях, таким образом, приводят ко многим рассеянным областям действительных молекул. Это важный открытый вопрос, действительно ли 100% действительное латентное пространство обеспечит полезную информацию.

Figure 5.

Рисунок 5. Валидность латентного пространства. Мы анализируем латентное пространство VAE, которое было обучено воспроизводить небольшие органические молекулы из базы данных QM9. Скрытое пространство имеет 241 измерение (zi подставка для конкретного скрытого измерения). Верхний ряд: мы выбрали четыре случайно ориентированных плоскости в многомерном пространстве, которые проходят через начало координат. Вдоль плоскости мы расшифровываем скрытые точки пространства и вычисляем, соответствуют ли они действительным или недействительным молекулам. Цветовой код обозначает долю допустимых молекул (красный = 0%, зеленый = 100% допустимых). Нижний ряд: мы выбрали случайную ориентацию плоскости и сместили ее на третью случайную ориентацию на (-2, -1, +1, +2) стандартные отклонения от исходного значения. Во всех экспериментах мы находим, что только малая часть латентного пространства для улыбок допустима, в то время как для S ELFIES допустимо все латентное пространство. Это важно не только для генеративных задач, но и для интерпретации внутренних представлений нейронных сетей. Большие и рассеянные недействительные области в латентном пространстве могут добавить проблем при интерпретации химических свойств продукта в зависимости от внутренних областей; этот вопрос решается с помощью SELFIES и может быть использован в будущих работах [22, 23].

Помимо 100% достоверности, решающее значение имеет также плотность молекул в латентном пространстве. Чем больше достоверных, разнообразных молекул закодировано внутри латентного пространства, тем богаче химическое пространство, которое можно исследовать во время процедур оптимизации. На рис. 6(а) мы сравниваем богатство кодируемых молекул, когда VAE обучается с помощью улыбок и SELFIES. Для этого мы отбираем случайные точки в латентном пространстве и останавливаемся после того, как 20 проб не произвели ни одной новой молекулы. Мы находим, что латентное пространство SELFIES VAE более чем на два порядка плотнее, чем пространство улыбок.

Figure 6.

Рисунок 6. Разнообразие генеративных моделей, обученных строковым представлениям, на примере VAE и GAN. Помимо надежности, разнообразие является одной из главных целей генеративных моделей, поскольку оно указывает потенциальное пространство, в котором происходит оптимизация для химических характеристик. А) мы исследуем плотность допустимых разнообразных молекул путем выборки латентного пространства VAE. Мы выбрали точки с расстоянием ? вокруг центра, остановившись после того, как 20 образцов не дали новых экземпляров. Мы находим, что ВАЕ тренировались сэльфами S содержит в 100 раз больше действительных разнообразных молекул, чем если бы он тренировался с улыбками или DeepSMILES. Б) мы обучаем GAN с 200 различными гиперпараметрами производить молекулы de-novo для SELFIES и SMILES. Пробуя 10.000 раз, SELFIES произвели 7889 различных допустимых молекул, в то время как для улыбок самое разнообразное допустимое число молекул, где 1855). Оба случая показывают, что SELFIES приводит к значительно большей плотности разнообразных молекул по сравнению с SMILES.

Другими известными глубокими генеративными моделями являются генеративные состязательные сети (GANs) [15], которые были введены в конструкцию молекул [28]. Там две сети–генератор и дискриминатор–обучаются в тандеме. Настройка такова, что дискриминатор получает либо молекулу из набора данных, либо выходы генератора. Цель дискриминатора состоит в том, чтобы правильно идентифицировать искусственно созданные структуры, в то время как цель генератора состоит в том, чтобы обмануть дискриминатор. После обучения генератор научился воспроизводить распределение набора данных. Мы тренируем GAN, используя 200 различных настроек гиперпараметра как для SMILES, так и для SELFIES. После обучения мы пробуем каждую из моделей 10.000 раз и вычисляем количество уникальных, допустимых молекул. Для наилучшего набора гиперпараметров мы находим, что GAN, обученный с помощью SELFIES, производит 78,9% разнообразных молекул, в то время как GAN, который производит строки SMILES, приводит только к 18,6% разнообразных молекул, см. рис.6(Б).

5. Охватывая химическую Вселенную

В этой рукописи мы демонстрируем и применяем SELFIES для малых биомолекул. Однако этот язык может быть расширен, чтобы охватить гораздо более богатые классы молекул. В соответствующем репозитории GitHub мы расширяем язык, чтобы позволить молекулам с числом атомов до 8000 на кольцо и ветвь, мы добавляем информацию о стереохимии, ионы, а также неограниченные неопределенные символы. Таким образом, мы закодировали и декодировали все 72 миллиона молекул из PubChem (наиболее полной коллекции синтезированных молекул) с менее чем 500 символами смайлов, демонстрируя охват пространства химического интереса.

6. Перспективы стандартизации

Концепция SELFIES все еще требует работы, чтобы стать стандартом. После публикации этой статьи авторы призовут провести семинар, чтобы распространить формат на всю периодическую таблицу, учесть стереохимию, поливалентность, ароматичность, изотопное замещение и другие частные случаи, чтобы все функции, присутствующие в SMILES, были доступны в SELFIES. Unicode будет использоваться для создания удобочитаемых символов, которые используют гибкость современных текстовых систем, не ограничиваясь символами ASCII. В этом контексте мы будем стремиться определить прямую канонизацию SELFIES, так что существует каноническая строка s ELFIES для уникальной молекулы. В настоящее время улыбки можно сделать каноническими косвенно, переведя их в SELFIES и преобразовав канонические улыбки обратно в SELFIES.

7. Вывод

Мы представили SELFIES, читаемый человеком и 100% надежный метод описания молекулярных графов в компьютере. Эти свойства приводят к превосходному поведению в обратных задачах проектирования функциональных молекул, основанных на глубоких генеративных моделях или генетических алгоритмах. SELFIES может использоваться в качестве прямого ввода в текущие и даже будущие генеративные модели, без необходимости адаптации модели. В генеративных задачах это приводит к значительно большему разнообразию молекул, что является основной задачей при обратном проектировании. В дополнение к результатам, представленным здесь, в отдельной работе мы используем генетические алгоритмы и обнаруживаем, что без каких-либо жестко закодированных правил SELFIES превосходят литературные результаты в широко используемом бенчмарке [29]. Помимо превосходного поведения при обратном проектировании, 100% достоверное представление также является достаточным условием для интерпретации внутренних структур моделей машинного обучения [27]. Хотя мы сосредоточились на представлении, которое идеально подходит для компьютеров, следует также обратить внимание на стандартизацию S ELFIES, чтобы обеспечить общую читаемость [30], используя многочисленные оставшиеся степени свободы SELFIES.

Доступность кода и данных

Полный код доступен на GitHub: https://github.com/aspuru-guzik-group/selfies. набор данных QM9, который был использован в данном исследовании, доступен в справочнике [16].

Телеграм: t.me/ainewsline

Источник: iopscience.iop.org

Замена SMILES для более надежного использования в текстовых автоэнкодерах

Комментарии: