ПРЕДСКАЗАНИЕ АТОМНЫХ ЗАРЯДОВ: RANDOM FOREST и ГЛУБОКОЕ ОБУЧЕНИЕ

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


За один день появилось сразу две статьи по созданию моделей для предсказания зарядов на атомах. Расскажу о них и еще немножко.

Классическая работа Гастайгера

Когда нужно очень быстро посчитать заряды, в нашей области самым распространенным подходом является схема Гастайгера, которая рассчитывает заряды на основе схемы уравновешивания. Суть концепции красивая - заряды появляются из-за разницы в электроотрицательности атомов. Однако из-за возникновения зарядов на атомах электроотрицательность меняется - те атомы, которые получают электроны понижают электроотрицательность и наоборот.

Об этом классическая статья 1980 года. Так, для сведения.

https://www.sciencedirect.com/science/article/pii/0040402080801682

Заряды, полученные с помощью обучения методом Random Forest

Теперь к современности. Конечно, идея лежит на поверхности, что можно рассчитывать заряды на основе машинного обучения. Швейцарские ребята в только что принятой статье в JCIM (10.1021/acs.jcim.7b00663) сделали очень основательную работу по предсказанию зарядов.

Идея очень простая. Квантовохимически рассчитываются заряды для более, чем 100 000 молекул. Сработали они основательно: взяли небольшой набор, "точный" метод CCSD, с ним сравнили методы DFT - и нашли лучший функционал, который воспроизводит заряды из точного метода наиболее хорошо. Им оказался TPSSh/aug-сс-pvTZ.

Потом нашли те заряды, которые мало зависят от конформации. Ведь предсказывать заряды это полдела, но, если ваш метод требует генерации конформаций, быстрым он очевидно не будет. Их задача была создать быстрый метод, значит заряды должны зависеть только от топологии молекулы. Поэтому попробовали заряды на 9 молекулах (L1-L9) и нашли ту схему расчета, которая минимально зависит от конформации. Ей оказалась некая DDEC

Дальше все было относительно понятно. Рассчитали заряды для кучи молекул, уже сгененировав по одному конформеру каждой молекулы. Для каждого химического элемента строится модель с использованием случайного леса (Random Forest) и фрагментных дескрипторов, взятых из RDKit, которая этот заряд предсказывает. Вот только беда, сумма зарядов по молекуле не соотвеnствует формальному заряду всей молекулы. Поэтому использовали специальную схему поправки.

где сигма — дисперсия предсказаний зарядов каждым деревом в Случайном лесе, дельтаQ — отклонение суммы атомных зарядов от формального заряда молекулы, qi — исходный заряд, qicorr — поправленный заряд.

Подвергли все внешнему контролю. Из одной работы взяли молекулы, являющиеся жидкостями, кроме того взяли существующие лекарства (естественно, из обучающей выборки они были удалены) — и показали очень хорошее согласие квантовохимических расчетов и их схемы расчета зарядов.

Ну и напоследок они показали, что их заряды хорошо подходят для молекулярной динамики, сравнив расчеты свойств жидкостей, полученные с помощью их обычных силовых полей GAFF (AM1-BCC) and OPLS-AA (CM1) и тех, в которые вставлены их заряды. Немножко с их зарядами оказалось лучше.

https://pubs.acs.org/doi/10.1021/acs.jcim.7b00663

Заряды, полученные с помощью глубокого обучения

В другой работе, пока опубликованной на ArXiv и поэтому несколько сыроватой, использовались методы глубокого обучения. Работа довольно обширная, кто интересуется — может почитать исходник. Мне показалось, что, как зачастую бывает в работах этих авторов, изложение не очень четкое — поэтому кое-что остается непонятным.

В отличие от ранее описанной работы, в центре был вопрос возможности предсказания любых типов зарядов с помощью машинного обучения (а не получения схемы расчета для ее использования в молдинамике или других приложениях). Поэтому рассчитывались разные заряды на молекулах (Hirshfeld, NBO, MSK, CM5). Использовались различные наборы данных: лекарства, теоретически нарисованные молекулы (GDB5) и другие. Авторы провели широкое сравнение возможностей различных методов машинного обучения на основе глубокого обучения к воспроизведению различных типов зарядов на разных выборках.

Ключевая находка работы — очень хитрый метод глубокого обучения, который позволяет предсказывать заряд без необходимости их дальнейшей нормальзации, названный Hierarchical Interacting Particle Neural Network. В работе было предложено и апробировано несколько схем его реализации.

Учится метод небыстро, что нормально в глубоком обучении. Но предсказывает неплохо и на 4 порядка быстрее, чем расчеты в DFT. В большинстве случае точность предсказания зарядов была на уровне или меньше 0.01 е. Для лучших — была в пределах 0.005e. Однако не все типы зарядов воспроизводились одинаково хорошо, например, систематически заряды СМ5 предсказывались хуже, по-видимому, по той причине, что эти заряды созданы под хорошее воспроизведение дипольного момента молекулы, а не были локальными свойствами атомов.

Напоследок было показано, что полученные заряды можно использовать для воспроизведения ИК спектров с помощью молекулярно динамики.

https://arxiv.org/ftp/arxiv/papers/1803/1803.04395.pdf


Источник: m.vk.com

Комментарии: