MSDB: база микросателлитов |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-08-20 09:19 Микросателлиты – это короткие тандемные повторы, повторяющийся мотив в которых может быть длиной от 1 до 6 нуклеотидов. Они уже долгое время используются как маркеры в популяционной, медицинской генетике, а также в криминалистике. Не так давно в журнале Nucleic Acids Research (IF = 11.79) рассказали о базе данных MSDB (MicroSatellite DataBase), в которой содержится более 4 миллиардов микросателлитов, принадлежащих 38 тысячам живых существ. Как считают составители, эта база позволит лучше изучить микросателлиты, понять их эволюцию, роль в организации генома и регуляции генов. Несмотря на то, что микросателлиты уже давно используются в фундаментальной и прикладной науке, то, как они эволюционируют, остаётся мало изученным. Из причин авторы указывают на отсутствие единого удобного ресурса с микросателлитами и аккуратных методов, с помощью которых можно было бы их находить и изучать. Но ещё стоит добавить то, что проблема спрятана и на этапе сборки генома, потому что собирать такие участки довольно сложно. Хорошим решением этого стали технологии длинных прочтений, но пока что большинство данных сделано с использованием коротких прочтений и нужно время, чтобы ситуация изменилась. Для имеющихся баз микросателлитов можно указать общие минусы – они либо таксоноспецифичны, либо устарели. Среди них можно выделить довольно новую базу SSRome, но и в ней присутствуют не все микросателлиты и не так много видов. В общем, всегда есть, к чему стремиться. А поэтому была создана база MSDB (MicroSatellite DataBase), в которой собраны более 4 миллиардов последовательностей микросателлитов более чем из 37 тысяч геномов, собранных по разным репозиториям. Большая часть микросателлитов, длина которых (заметьте, не длина повторяющегося мотива, а общая длина) от 12 и больше нуклеотидов, аннотирована вместе с геномным контекстом. Как составлялась база: сначала из UCSC, RefSeq и GenBank авторы скачали самые актуальные версии геномов (либо те, которые были лучшего качества/с высоким N50/были наиболее полно собраны), а затем осуществили в них поиск микросателлитов программой PERF. Полученные результаты и положили основу для создания MSDB. Данные можно скачать (по каждому виду отдельно), а можно посмотреть с довольно удобным веб-интерфейсом прямо на сайте базы. Кстати, она регулярно пополняется новыми данными из UCSC, RefSeq и GenBank. Ссылка на базу – https://data.ccmb.res.in/msdb/ Источник: m.vk.com Комментарии: |
|