В погоне за длинным ридом

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Окончательно дособирать геном человека удалось только к 2022 году. И, оказывается, этим достижением мы в какой-то мере обязаны глубокому обучению. Рассказываем, где собака зарыта

Одна из технологий секвенирования, которая помогла прочитать геном человека от теломеры до теломеры, — это продукт британской компании Oxford Nanopore. Ее относят к третьему поколению: не нужна PCR-амплификация, а прочтения очень длинные, но с ошибками. Идея применения нанопор для секвенирования ДНК зародилась еще в 1990-е, сама компания появилась в 2005 году, а первый ее коммерческий продукт только в 2014. Кстати, приложил руку к нанопорам Джордж Чёрч — тот самый гарвардский профессор, который планирует воскресить мамонта ? В основе метода нанопорового секвенирования лежит белковая пора, которая вставлена в мембрану. К мембране приложена разность потенциалов, сквозь пору течет ионный ток. Когда нить нуклеиновой кислоты протягивается через пору, нуклеотиды выступают в качестве барьеров, что вызывает пикоамперные скачки тока. Они и улавливаются сенсором. Разные основания соответствуют разным уровням изменения тока, что позволяет отличать «буквы» друг от друга.

Исторически за ONT закрепилась репутация технологии, допускающей очень много ошибок. Однако в настоящее время нанопоровое секвенирование невероятно эволюционировало и даже конкурирует с Illumina. Как это произошло? Оксфордцы не сидели на месте, а много совершенствовались: пробовали самые разные варианты пор, улучшали химию, и корпели над ключевым шагом — бейсколлингом.

Base calling — это перевод сырых электрических сигналов (так называемых закорючек, «squiggles») в последовательность нуклеотидов. И получение fastq файлов, с которыми уже играют биоинформатики. Вроде плевое дело, но на деле — крайне нетривиальная задача. Внутри поры одномоментно находится не один нуклеотид, а несколько (примерно 5), и регистрируемый сигнал соответствует не индивидуальному основанию, а комбинации.

Сначала для бейcколлинга приспособили скрытые марковские модели (HMM) — но процент ошибок оставался высоким. А потом в мире начался расцвет нейронных сетей. И они изменили расклад. Сейчас популярные бейсколлеры построены на рекуррентных нейросетях (RNN). Эта архитектура отлично подходит для анализа данных, упорядоченных во времени. Они обрабатывают информацию последовательно и обладают памятью. Рекуррентные нейронные сети используются для распознавания речи, перевода текстов, они же господствовали в сфере обработки естественного языка до появления трансформеров (ChatGPT). Благодаря рекуррентным нейросетям удалось достичь потрясающей точности декодирования сырых сигналов нанопорового секвенатора. Конечно, такая точность не всегда возможна, и результат зависит от обучающей выборки. Под специфические задачи независимые исследователи тренируют собственные бейсколлеры.

Сегодня длинные нанопоровые риды применяются для сборки больших геномов с повторами, прямого чтения РНК, прямой детекции модифицированных нуклеотидов в эпигеномике и эпитранскриптомике и многого другого. А еще ONT врывается в протеомику: методы секвенирование белков и определение посттрансляционных модификаций с помощью нанопор — уже реальность! Хотя эта вычислительная задача еще труднее, ведь искусственному интеллекту нужно научиться различать не 4, а 20 букв.

Конечно, пример с нанопоровым секвенированием — это только верхушка айсберга того, как машинленинг меняет современную биоинформатику. Больше — у нас на курсах!


Источник: vk.com

Комментарии: