AlphaFold: нейросеть для предсказания структуры белков от британских ученых |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-09-06 12:50 Статья на конкурс «Био/Мол/Текст»: Уже не одно десятилетие биоинформатики бьются над проблемой предсказания структуры белков «с нуля». Решить проблему «в лоб», смоделировав процесс укладки, не особо получается — слишком малы вычислительные возможности современных компьютеров. Исследователи из Лондона предложили новое решение проблемы — теперь структуру белка предсказывает нейронная сеть! В профильном конкурсе искусственный интеллект обошел всех конкурентов и занял первое место. Как ему это удалось — читайте в нашей заметке! Черные дыры, суперкомпьютеры и видеоигры Предсказание пространственной структуры белков — важнейшее назначение современной структурной биоинформатики [1]. И причины тому две. Во-первых, спрос на такие предсказания чрезвычайно высок. С появлением технологий NGS (секвенирования нового поколения) число доступных белковых последовательностей растет подобно снежному кому, а вот расшифровка пространственных структур до сих пор не поставлена на поток. Используемые для нее методики не только весьма сложны и дорогостоящи: для многих из них нет универсального «рецепта» эксперимента, как, например, для рентгеновской кристаллографии. Условия роста кристалла зачастую приходится подбирать почти интуитивно — и это мало способствует ускорению эксперимента. А драг-дизайнерам необходимы пространственные структуры в огромных количествах, чтобы разрабатывать лекарства против новых мишеней. Выход один — предсказывать. А во-вторых и в главных, возможности биоинформатики тут резко ограничены. Относительно «потоковой» технологией является лишь сопоставительное моделирование, чаще всего реализуемое в виде моделирования по гомологии. Оно базируется на простой закономерности: гомологичные (эволюционно родственные и сходные по последовательности) белки в подавляющем большинстве случаев имеют почти одинаковую «укладку». Поэтому можно просто «натянуть» последовательность белка с неизвестной структурой на гомолог, для которого структура уже определена [2] (как мы сделали на рис. 1). Но такой метод абсолютно бессилен, если нет подходящего шаблона: у белка нет «родственников» с расшифрованной трехмерной структурой, у нас на руках последовательность мутантного белка с нарушенной укладкой (misfolding) или нужно решить задачу белковой инженерии — например, сконструировать «под ключ» фермент, который умел бы расщеплять, скажем, полиэтилен. Во всех этих случаях необходимы методы предсказания структуры белка «с нуля», или, как говорят биоинформатики, ab initio (лат. «с начала»). Как раз эта область остается одной из самых проблемных. Ее проблемы и возможные решения ранее были подробно описаны на «Биомолекуле»: в одной из первых статей на сайте дан подробный обзор проблемы [2], а в 2016 году выпущен новый обзор [4]. В 2007 году рассказано о новых успехах на этом поприще [5]. Здесь повторю все вкратце. Еще в середине XX века американский биохимик Кристиан Анфинсен сделал важное открытие: трехмерная структура белка определяется самой его последовательностью, и никакой дополнительной информации для сворачивания белка не требуется. В его опытах денатурированный фермент рибонуклеаза мог снова «сворачиваться» в свою активную конформацию и резать РНК дальше как ни в чем не бывало. Значит ли это, что трехмерная структура белка закодирована в самой последовательности его аминокислот? Можно сказать и так, но «взломать» этот код современной биоинформатике пока не по зубам. Если ДНК, РНК и аминокислотная последовательность действительно связаны между собой однозначным соответствием (почему мы и можем предсказать последовательности всех белков организма по его геному), то при переходе от одномерной к трехмерной структуре белка в дело вступает довольно сложная физика. Длинная полипептидная цепочка белка самопроизвольно сворачивается в «клубок» с наименьшей потенциальной энергией. В свою очередь, именно от последовательности аминокислотных остатков зависит, какая энергия будет наименьшей. Казалось бы, пока все просто. Биоинформатики и хемоинформатики любят представлять все свои числа в виде гипотетического ландшафта в многомерном пространстве. Потенциальная энергия белка тоже образует такой ландшафт. Здесь каждому измерению будет соответствовать координата или угол поворота каждого аминокислотного остатка, и еще одно измерение отображает эту самую энергию. Нет-нет, не пытайтесь это представить, с многомерными пространствами работают, не представляя их интуитивно! Чтобы получилась наглядная картинка, придется «схлопнуть» все пространство координат в двухмерную плоскость. Тогда можно схематично нарисовать полученный ландшафт, как на рисунке 2. Видно, что ландшафт потенциальной энергии белка имеет форму черной дыры [6]. Next1/2 Рисунок 2а. Ландшафт потенциальной энергии белка, похожий на черную дыру [6], рисунок адаптирован Вместо сингулярности у этой «черной дыры» — вполне себе конкретное «дно», соответствующее нативной конформации белка. Но, в отличие от астрономических черных дыр, сама «дыра» — не гладкая. Ее поверхность испещрена энергетическими барьерами и локальными минимумами энергии — «горами» и «впадинами». Белок при свертывании проходит по «тропинкам» между «горами» или вовсе перелезает через низкие холмы. Но как «горы», так и «впадины» гораздо больше, чем на рисунке, а вот по величине энергии отличаются друг от друга незначительно — то есть высокие пики соседствуют с глубокими пропастями [7]. А ведь речь не о двухмерном ландшафте, а подчас о пространстве с головокружительной мерностью — в зависимости от длины белка. Добавим к этому чисто техническую сложность: силовые поля, описывающие взаимодействия молекул в компьютерной модели, являются лишь приближениями реальных сил — для стопроцентной точности пришлось бы использовать уравнения квантовой механики, а это пока никакому суперкомпьютеру не под силу. Получается, что на существующих сейчас компьютерах нельзя просчитать тропинки, ведущие на дно «черной дыры» — программа их просто не увидит на обрывистом горном ландшафте. Так что… Есть молекулярная динамика, где просто симулируется движение молекул по законам Ньютона с расчетом межмолекулярных и межатомных сил теми же самыми силовыми полями — при этом не ставится никаких целевых показателей в виде снижения энергии. Задаем начальные условия и оставляем нашу систему в виртуальном мире — а дальше смотрим, что получится. Пока это самый точный метод — но лишь за счет того, что симуляция сама по себе наиболее сложна и «реалистична» — как в компьютерных играх с хорошим игровым миром. Поэтому молекулярная динамика требует очень мощных компьютеров — и даже на них считается долго. И опять все упирается в имеющиеся у человечества вычислительные мощности: до недавнего времени можно было симулировать процессы, длящиеся в течение наносекунд, то есть миллиардных долей секунды. А фолдинг белка длится микросекунды, то есть тысячные доли. Между доступным и необходимым временем симуляции получается разрыв в 100–1000 раз. В 2010 году на «Биомолекуле» гордо отрапортовали, что миллисекундный барьер взят [8], и теперь стали возможны вычисления более 1 миллисекунды. Но все равно — пока мы можем «сворачивать» только очень короткие белки, и даже те имеют свойство надолго застревать в какой-нибудь «потенциальной яме» далеко от нативной конформации (видео 1). Чтобы «облегчить» молекулярную динамику, ученые идут на различные ухищрения. Например, используют крупнозернистое (coarse-grained) представление молекул [10]. В ней целые аминокислотные остатки (или часто встречающиеся группы атомов) рассматриваются как цельные жесткие фигуры, своеобразные «псевдоатомы», для которых задаются потенциалы взаимодействия с другими компонентами системы (рис. 3). Next1/2 Рисунок 3а. Различные способы крупнозернистого (coarse-grained) представления белков. Вверху слева — модель со всеми атомами, а на остальных изображениях — различные модели «огрубления», от довольно мягкой Rosetta CEN до радикальной SICHO. Такой подход значительно «облегчает» симуляцию и удлиняет доступное время, но при этом снижает точность, поэтому он пока не стал основной доступной и общепризнанной программой для предсказания структуры белков. Очевидно, что нужна какая-то новая технология… В 2008 году известный «корифей» структурной биологии белков Дэвид Бэйкер совместно с профессорами информатики и инженерии Зораном Поповицем и Дэвидом Салесином решили превратить предсказание структуры белков… в увлекательную игру! Эта игра, в которой участники «сворачивают» белок, подробно описана в статье «Тетрис XXI века» [11]. Чем ниже расчетная потенциальная энергия полученной конформации, тем выше очки участника. Полученные модели потом используются для научных расчетов. Игра спроектирована таким образом, чтобы в нее могли играть неспециалисты — они и составляют львиную долю игроков. Такой вот игровой краудсорсинг. Основная идея игры состоит в том, что, хоть компьютер не может рассчитать правильную конформацию, ее вполне может почувствовать мозг человека. Стоп! Мозг! А что, если… Правильно! Нужен искусственный интеллект! Дистанция лучше контакта! И лучше энергии! Такую разработку представила лондонская компания DeepMind, занимающаяся искусственным интеллектом [12–14]. Вместе с ней в работе принимали участие Институт Фрэнсиса Крика (на российский манер он назывался бы НИИ биомедицины им. Фрэнсиса Крика) и Университетский колледж Лондона. Их основная идея — использовать в предсказании структуры белка нейронную сеть. Большое преимущество нейронных сетей — они способны обучаться, поэтому хорошо подходят для задач, где трудно представить алгоритм. В том числе — для предсказания структуры белка. Британские ученые (ну не смейтесь! здесь все серьезно!) использовали сверточные нейронные сети (англ. convolutional neural networks). Они имитируют одну из самых сложно устроенных и вместе с тем одну из самых изученных нейронных систем мозга человека и животных — зрительные центры. Поэтому первоначально такие сети использовались в компьютерном зрении и распознавании изображений. На видео 2 наглядно показано, как такая сеть работает с изображением: многократно пропускает по нему маленький фильтр, «вылавливающий» какие-то паттерны. Примерно так же работает наша зрительная система. Математически такой алгоритм реализуется при помощи операции, называемой сверткой — отсюда и название. Этот же алгоритм используется во всех других применениях сверточных сетей — в том числе и в работе британских ученых. Достаточно мысленно заменить экран с буквой «А» (на видео 2) на большой массив входных данных… а кстати, что британские ученые «скормили» нейросети? Ведь мало придумать нейросеть — надо решить, что подавать на вход! Энергия свертывания белка, про которую я так много писал выше, определяется контактами между аминокислотами. Именно от них зависит образование слабых взаимодействий — водородных связей, гидрофобных контактов, солевых мостиков, стэкинга и тому подобных сил [15]. Напрашивается идея научить нейросеть предсказывать контакты, но исследователи заметили, что сеть проявляет куда б?льшие успехи, если учить ее предсказывать дистанции и углы! В итоге от контактов отказались, и все дальнейшее предсказание строилось на дистанциях и углах между аминокислотными остатками в трехмерной структуре. Тренируя сверточные нейросети на известных структурах, ученые добивались, чтобы они точно предсказывали для новых белков распределение дистанций между аминокислотными остатками. И сети отлично справлялись со своей задачей. Получались своеобразные матрицы (рис. 4) — они и служили своеобразным оптимумом, к которому нужно стремиться при фолдинге. А для самог? сворачивания белка использовалась обычная для современного этапа математика — методы имитации отжига и градиентного спуска, широко используемые при решении задач на оптимизацию — не только применительно к белкам (рис. 5). Исследователи фактически разрубили гордиев узел: полностью ушли от энергии, контактов, моделирования физических сил (все равно пока этого не умеем), а вместо этого занялись оптимизацией распределений дистанций (которые хорошо предсказываются методами машинного обучения). Сам по себе процесс «сворачивания» белка устроен куда проще, поэтому защищен от неприятных сюрпризов — например, застревания в энергетических ямах, как в молекулярной динамике (рис. 5). Но получилась ли методика точной? О да! Проблема предсказания структуры белков — настолько сложная и объемная, что по ней есть отдельный конкурс. Называется он CASP — Critical Assessment of Protein Structure Prediction, или «критическая оценка предсказания белковых структур». Участникам предлагается предсказать структуру белков, еще не выложенных в открытый доступ. Конкурс проводится раз в два года. Разработчики AlphaFold участвовали в 13-м конкурсе (CASP13) и заняли первое место. А организаторы конкурса так описали их работу [14]: Беспрецедентный прогресс возможностей компьютерных методов в предсказании структуры белков. Любопытно, что AlphaFold оказался способен состязаться в точности не только с другими методами моделирования ab initio, но и с широко используемыми сейчас методиками моделирования по гомологии! Серьезный запрос, чтобы произвести настоящую революцию и прийти им на смену. Уже сейчас научное сообщество не на шутку заинтересовалось разработкой: не успел выйти сам AlphaFold, как группа исследователей из частного Университета Бригама Янга в штате Юта (США) сделала свободный аналог! Я считаю, что это лучший комплимент компании DeepMind, хоть экономически немного невыгодный. Пока разработка описана только в препринте на bioRxiv [16]. Почти одновременно с публикацией статей по AlphaFold мир охватила эпидемия нового коронавируса — и проблема предсказания структуры белков встала как никогда остро: точные предсказания структуры вирусных белков потребовались срочно — чтобы дать миру шанс разработать эффективные лекарства. У AlphaFold появился шанс испытать себя в бою… и это испытание он с честью выдержал! Структура S-белка вируса, который образует «шипы» оболочки и обеспечивает связывание с клеткой-мишенью, была предсказана им точно — это выяснилось после публикации экспериментально определенной структуры S-белка в PDB. Впрочем, эти результаты авторы пока описали только в блоге компании, а какие-то выводы можно делать только после публикации в рецензируемых журналах. Но острота ситуации диктует необходимость такой предварительной публикации — тем более что в ней авторы поделились ссылкой на полученные ими модели вирусных белков (доступны все сразу в одном ZIP-архиве). Эти модели может использовать любой нуждающийся. Так что искусственный интеллект в лице DeepMind уже включился в борьбу с пандемией. С чем еще он поможет нам справиться? Время покажет! Не только AlphaFold вышел на тропу войны с новым коронавирусом. Какие еще разработки в сфере молекулярного моделирования и искусственного интеллекта ученые пытаются использовать против инфекции, можно почитать в нашей статье: «Компьютерные технологии против коронавируса: первые результаты» [17] (перепубликована из журнала «Природа», №3 за 2020 год). Литература
Автор: Георгий Куракин Источник: biomolecula.ru Комментарии: |
|