В погоне за длинным ридом |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-09-27 12:16 Окончательно дособирать геном человека удалось только к 2022 году. И, оказывается, этим достижением мы в какой-то мере обязаны глубокому обучению. Рассказываем, где собака зарыта Одна из технологий секвенирования, которая помогла прочитать геном человека от теломеры до теломеры, — это продукт британской компании Oxford Nanopore. Ее относят к третьему поколению: не нужна PCR-амплификация, а прочтения очень длинные, но с ошибками. Идея применения нанопор для секвенирования ДНК зародилась еще в 1990-е, сама компания появилась в 2005 году, а первый ее коммерческий продукт только в 2014. Кстати, приложил руку к нанопорам Джордж Чёрч — тот самый гарвардский профессор, который планирует воскресить мамонта ? В основе метода нанопорового секвенирования лежит белковая пора, которая вставлена в мембрану. К мембране приложена разность потенциалов, сквозь пору течет ионный ток. Когда нить нуклеиновой кислоты протягивается через пору, нуклеотиды выступают в качестве барьеров, что вызывает пикоамперные скачки тока. Они и улавливаются сенсором. Разные основания соответствуют разным уровням изменения тока, что позволяет отличать «буквы» друг от друга. Исторически за ONT закрепилась репутация технологии, допускающей очень много ошибок. Однако в настоящее время нанопоровое секвенирование невероятно эволюционировало и даже конкурирует с Illumina. Как это произошло? Оксфордцы не сидели на месте, а много совершенствовались: пробовали самые разные варианты пор, улучшали химию, и корпели над ключевым шагом — бейсколлингом. Base calling — это перевод сырых электрических сигналов (так называемых закорючек, «squiggles») в последовательность нуклеотидов. И получение fastq файлов, с которыми уже играют биоинформатики. Вроде плевое дело, но на деле — крайне нетривиальная задача. Внутри поры одномоментно находится не один нуклеотид, а несколько (примерно 5), и регистрируемый сигнал соответствует не индивидуальному основанию, а комбинации. Сначала для бейcколлинга приспособили скрытые марковские модели (HMM) — но процент ошибок оставался высоким. А потом в мире начался расцвет нейронных сетей. И они изменили расклад. Сейчас популярные бейсколлеры построены на рекуррентных нейросетях (RNN). Эта архитектура отлично подходит для анализа данных, упорядоченных во времени. Они обрабатывают информацию последовательно и обладают памятью. Рекуррентные нейронные сети используются для распознавания речи, перевода текстов, они же господствовали в сфере обработки естественного языка до появления трансформеров (ChatGPT). Благодаря рекуррентным нейросетям удалось достичь потрясающей точности декодирования сырых сигналов нанопорового секвенатора. Конечно, такая точность не всегда возможна, и результат зависит от обучающей выборки. Под специфические задачи независимые исследователи тренируют собственные бейсколлеры. Сегодня длинные нанопоровые риды применяются для сборки больших геномов с повторами, прямого чтения РНК, прямой детекции модифицированных нуклеотидов в эпигеномике и эпитранскриптомике и многого другого. А еще ONT врывается в протеомику: методы секвенирование белков и определение посттрансляционных модификаций с помощью нанопор — уже реальность! Хотя эта вычислительная задача еще труднее, ведь искусственному интеллекту нужно научиться различать не 4, а 20 букв. Конечно, пример с нанопоровым секвенированием — это только верхушка айсберга того, как машинленинг меняет современную биоинформатику. Больше — у нас на курсах! Источник: vk.com Комментарии: |
|