Программа для поиска Numt`ов

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Numt`ы – акроним от "nuclear mitochondrial DNA", это фрагменты мтДНК, которые встроились в ядерный геном. Помимо таких инсерций, причём разной длины, иногда происходят и последующие их дупликации и появляются Numt`ы-паралоги. Из-за схожести с таковыми в мтДНК, их бывает сложно распознать, для этого существуют различные методы. Про один из них под названием RtN!, который был недавно опубликован в журнале Bioinformatics (IF = 5.61), мы и расскажем.

При поиске Numt`ов нужно иметь ввиду, что они обладают отличающимися от своих митохондриальных аналогов свойствами. Например, у них обычно более низкая скорость мутирования, а так же другой способ наследования, не только по материнской линии, как это бывает в случае митохондрий.

Поэтому одним из логичных способов поиска Numt'ов может быть простое выравнивание своих данных (имеются ввиду риды) на референсный геном человека, GRCh38. В нём так же есть участки со вставками из мтДНК, а поэтому по схожести можно определить, Numt это или нет. Здесь сразу видно подводный камень – референсный геном содержит в себе не все такие существующие последовательности, а поэтому некоторые окажутся пропущенными. К тому же, последовательности Numt у референса могут отличаться и придётся думать, а где же та грань, которая скажет, Numt это или не Numt в геноме. Особенно, если он небольшой длины. Другой способ – сравнивать ядерный и митохондриальный геномы одного индивида, но здесь предполагается хорошая сборка обоих и опять же могут возникнуть проблемы, например, из-за гетероплазмии.

Авторы RtN! (расшифровывается как Remove the Numts!) выбрали немного другой подход. Если быть откровенными, концептуально он не сильно отличается от указанного выше, но интересен и внимания всё равно заслуживает. Они предлагают брать только те риды, которые достаточно хорошо картируются на известные по базам данных митохондриальные последовательности. В качестве threshold используется значение, которое, как пишут авторы, по дефолту настроено для наилучшего поиска Numt у человека, но можно вручную его менять. В этом подходе пропадает проблема того, что Numt'ы должны быть аннотированы (как в описанно выше случае с референсным геномом), просто происходит поиск по схожести. И если рид очень отличается от митохондриальных последовательностей, то это означает, что либо этот рид вообще из другого участка генома, либо же он нужный, но содержит в себе много ошибок секвенирования. А такие не нужны и отфильтровываются.

Авторы приводят эти аргументы, но можно задуматься ещё и над случаем, когда последовательность анализируемого образца просто более полиморфна и является Numt'ом, но из-за высокой полиморфности не совпадает с ним. И в таком случае она могла бы быть отсеяна. Здесь, в качестве подстраховки (но не основного метода), авторы пользуются большой базой данных HmtDB (содержит 44 тысячи полных митохондриальных геномов), в которой собраны полиморфизмы мтДНК человека, а также ещё на одну базу аннотированных Numt, составленную по разным публикациям.

Ссылка на GitHub – https://github.com/Ahhgust/RtN, написана программа на C++. Ссылка на статью – https://academic.oup.com/bioinformatics/article-abstract/doi/10.1093/bioinformatics/btaa642/5876023.


Источник: m.vk.com

Комментарии: