Разделяй и властвуй: геномный анализ offline

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Возможность быстрого и качественного проведения геномного анализа имеет большую ценность как для исследователей, так и для практикующих врачей. Группа учёных из Института медицинских исследований Гарвана и Университета Нового Южного Уэльса в Австралии опубликовали (Gamaarachchi, Parameswaran, and Smith 2019) метод проведения полногеномного анализа «оффлайн» с использованием алгоритма, способного осуществлять точный анализ геномных данных с меньшими, чем у аналогов, затратами вычислительных мощностей.

Данный алгоритм может использоваться для диагностики инфекционных заболеваний в удаленных районах или прямо в больнице, при этом для анализа будет достаточно оперативной памяти устройств, сравнимых по размеру со смартфоном.

Сейчас размер устройств, используемых для полногеномного секвенирования, позволяет присоединять их к смартфону — стоит вспомнить Oxford Nanopore. Мини-секвенаторы уже показали свою эффективность во время эпидемии вируса Эбола в Новой Гвинее и вируса Зика в Бразилии. Такие устройства способны за 48 часов выдать более терабайта данных, но дальнейшее выравнивание неизвестных образцов на референсную базу известных геномов является очень ресурсоёмким и требует больших вычислительных мощностей. До настоящего времени для проведения таких анализов требовались высокопроизводительные компьютерные станции или наличие интернет-соединения.

Исследователи из группы Геномных Технологий в Центре клинической геномики в городе Кингхорн, Австралия, во главе с доктором Мартином Смитом предложили свой вычислительный метод, требующий для выравнивания всего два гигабайта памяти вместо обычных шестнадцати, что позволяет проводить анализ «прямо на месте» .

« Мы хотим сделать геномные технологии более доступными для широкого применения в медицине. Устройства становятся всё меньше, но проблема их использования в удалённых районах всё ещё актуальна, поэтому мы создали метод, способный анализировать геномные данные в режиме реального времени, прямо на мобильном устройстве.» — комментирует доктор Смит.

Исследователи адаптировали программу Minimap2, которая производит выравнивание ридов на базу известных геномов. Референсная база обычно отсортирована или проиндексирована, что позволяет быстро картировать риды на соответствующие позиции в референсном геноме.

Доктор Смит объясняет: «Индекс референса требует слишком много памяти и до настоящего времени это вызывало определенные затруднения. Мы использовали подход разделения референсной библиотеки на множество небольших сегментов. После выравнивания ридов на эти сегменты мы объединяли результаты и отсеивали шум — напоминает создание панорамы склеиванием небольших фотографий. Для других алгоритмов, использующих подобный подход разделения референсной базы данных характерно большое количество ложных и дублированных выравниваний, сравнимых с перекрывающимися фото в панораме. Мы осуществили настройку параметров для отбора наилучшего картирования среди различных сегментов библиотеки (Рис.1). Такой подход показал эффективность, сравнимую со стандартными выравнивателями.»

Рис.1 Эффект выравнивания последовательностей на единую и сегментированную библиотеку. Уникально картирующийеся химерные риды (а) отностительно просто могут быть картированы на сегментированную библиотеку. Тем не менее, последовательности, которые трудно картировать ( например, повторяющиеся элементы) могут вызывать появление артефактов при картировании на сегментированную библиотеку. (b) Ситуация, когда один сегмент (chr2) содержит меньше гомологичных риду последовательностей —выравнивание на единую базу, в таком случае, не позволит выбрать лучшее картирование. (с) Пример возникновения при использовании сегментированной библиотеки дополнительных выравниваний с более низким качеством, пропускаемых при использовании единой библиотеки. Q: качество выравнивания (mapping quality score). Картинка из обсуждаемой статьи

Сравнение нового алгоритма с результатами стандартных протоколов обработки геномных данных довольно оптимистично — исследователи не только воспроизвели 99.98% выравниваний, но также благодаря использованию меньших сегментов индекса смогли картировать дополнительный 1% ридов.

Доктор Смит и его команда надеются, что этот подход со временем может быть использован для экспресс-диагностики и стать надёжным инструментом в руках врачей.

Ссылка на статью: https://www.nature.com/articles/s41598-019-40739-8

Ссылка на репозиторий: https://doi.org/10.6084/m9.figshare.6964805.v1


Источник: vk.com

Комментарии: