MSDB: база микросателлитов

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Микросателлиты – это короткие тандемные повторы, повторяющийся мотив в которых может быть длиной от 1 до 6 нуклеотидов. Они уже долгое время используются как маркеры в популяционной, медицинской генетике, а также в криминалистике.

Не так давно в журнале Nucleic Acids Research (IF = 11.79) рассказали о базе данных MSDB (MicroSatellite DataBase), в которой содержится более 4 миллиардов микросателлитов, принадлежащих 38 тысячам живых существ. Как считают составители, эта база позволит лучше изучить микросателлиты, понять их эволюцию, роль в организации генома и регуляции генов.

Несмотря на то, что микросателлиты уже давно используются в фундаментальной и прикладной науке, то, как они эволюционируют, остаётся мало изученным. Из причин авторы указывают на отсутствие единого удобного ресурса с микросателлитами и аккуратных методов, с помощью которых можно было бы их находить и изучать. Но ещё стоит добавить то, что проблема спрятана и на этапе сборки генома, потому что собирать такие участки довольно сложно. Хорошим решением этого стали технологии длинных прочтений, но пока что большинство данных сделано с использованием коротких прочтений и нужно время, чтобы ситуация изменилась.

Для имеющихся баз микросателлитов можно указать общие минусы – они либо таксоноспецифичны, либо устарели. Среди них можно выделить довольно новую базу SSRome, но и в ней присутствуют не все микросателлиты и не так много видов. В общем, всегда есть, к чему стремиться. А поэтому была создана база MSDB (MicroSatellite DataBase), в которой собраны более 4 миллиардов последовательностей микросателлитов более чем из 37 тысяч геномов, собранных по разным репозиториям. Большая часть микросателлитов, длина которых (заметьте, не длина повторяющегося мотива, а общая длина) от 12 и больше нуклеотидов, аннотирована вместе с геномным контекстом.

Внешний вид главной страницы базы MSDB.

Как составлялась база: сначала из UCSC, RefSeq и GenBank авторы скачали самые актуальные версии геномов (либо те, которые были лучшего качества/с высоким N50/были наиболее полно собраны), а затем осуществили в них поиск микросателлитов программой PERF. Полученные результаты и положили основу для создания MSDB.

Данные можно скачать (по каждому виду отдельно), а можно посмотреть с довольно удобным веб-интерфейсом прямо на сайте базы. Кстати, она регулярно пополняется новыми данными из UCSC, RefSeq и GenBank.

Ссылка на базу – https://data.ccmb.res.in/msdb/
Ссылка на статью – https://academic.oup.com/nar/article/48/D1/D155/5584837?searchresult=1


Источник: m.vk.com

Комментарии: