Предсказание эффекта мутации в регуляторном элементе гена на экспрессию

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Наконец вышла наша статья "Что о вас говорят соседи" по результатам соревнования CAGI (предсказание эффекта мутации в регуляторном элементе гена на экспрессию). Это довольно редкий случай, когда наш проигрыш в соревновании и последующий постмортем дал нам больше инсайтов, чем мог бы дать выигрыш.

Если совсем коротко описать наш результат, мы подтвердили давний афоризм "скажи мне, кто твой друг, и я скажу кто ты" и показали, как именно не надо делать машинное обучение на геномных данных. Все соревновавшиеся команды (включая и нас, и даже самих организаторов соревнования), прошлись по этим граблям и получили крайне завышенные результаты качества. Читайте наши статьи, учитесь на наших ошибках. Ну или можете прочитать мой пересказ:

Хорошо известно, что соседние позиции генома очень скоррелированы. Например, если мутация в одной позиции выключила ген, то весьма вероятно, что мутация в соседнем нуклеотиде будет иметь примерно тот же эффект, ведь она заденет тот же регуляторный элемент. Это, в общем-то, ни у кого не вызывает сомнений.

Проблемы начинаются, когда в игру вступают чуть более сложные признаки, такие как эмбеддинги нейросетей. Экспериментально выявлено, что нейросетевая магия оказывают убаюкивающее воздействие и помогает эту проблему игнорировать.

Многие геномные признаки (и в частности эмбеддинги сверточных сетей) являются "шибболетом", т.е. по эмбеддингу можно понять, с какого района он пришёл. Когда алгоритм машинного обучения тренируют, ему показывают разные геномные регионы и заставляют искать закономерности. Если алгоритм долго водить по одному и тому же региону, то он его хорошо запоминает и у него образуются стереотип о том, что там может происходит. Если вы из прошлого опыта знаете, что вот этот вот район опасный: там в шаверму не соленый огурец, а турецкий барабан заворачивают мутации в нём, например, выключают гены, то увидев даже новый для вас нуклеотид из этого района, вы переходите на другую сторону улицы вы верно угадываете, что и он тоже выключает ген.

Пока ваши дедуктивные способности тестируют, водя вас по всё тем же районам, вы отлично угадываете, уровень опасности, но как только вас приводят в другое место, которое вы раньше не встречали, оказывается, что вы уровень опасности переулка оценивали по знакомым табличкам на стенах, а не по тому, держит ли ваш визави пистолет.

Возвращаясь к геномным реалиям... У соседних позиций признаки — пусть даже такие "навороченные" как эмбеддинги глубоких сеток — не являются независимыми. И если, например, классификатор вредоносности мутаций видел фичи соседних мутаций и знает, насколько они вредоносны, то оценить вашу мутацию по фичам ему не составит труда. А вот оценить мутацию, чьего геномного окружения классификатор не видел, гораздо, горааааздо сложнее.

Особо красивый, как мне кажется, эффект заключается в том, что произвольная(!) медленно меняющаяся (от позиции на хромосоме) функция, взятая в качестве признака, позволяет машинному обучению запомнить ваших соседей, ведь признак у вас и ваших соседей будет похож (притом современные геномные эмбеддинги умеют помнить довольно длинный контекст; у нас в статье даны некоторые эмпирические оценки того, на каком расстоянии корреляции становятся достаточно малы). Например, вы можете взять признаки, посчитанные *для другого места генома*, и они будут "работать", покуда вы валидируете результаты по тем же геномным регионам. Понятно, что как только вы возьмете нормальную валидацию, качество предсказаний упадет до уровня бросания монетки.

Из всего этого следует один очень практический вывод: обучающая, валидационная и тестовая выборки должны быть с разных хромосом, иначе протекание информации из обучения в валидацию весьма вероятно.

Спасибо коллегам, и особо поздравим , который уже защитил эту работу как диплом!

И спасибо systems biology fellowship, чей грант позволял мне работать над этой статьей.

https://doi.org/10.3389/fgene.2019.01078


Источник: doi.org

Комментарии: