Мгновенная расшифровка сырого сигнала MinION при помощи глубокого обучения |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-10-01 14:00 Третья часть нашего рассказа про чтение генома с помощью секвенатора третьего поколения компании Oxford Nanopore уже на подходе, а пока мы доделываем ее, на BioRxiv вышел препринт, в котором описывается алгоритм глубоко обучения для мгновенной трансляции сырого сигнала с MinION в последовательность нуклеотидов. Секвенирование с помощью нанопоры позволяет получать и анализировать сырой сигнал (кривую изменения электрического тока при протягивании ДНК через пору) мгновенно, пока молекула ДНК еще находится в поре. Бутылочным горлышком этого процесса является бейсколлинг — трансляция сырого сигнала в последовательность ДНК. В стандартном пайплайне обработки данных бейсколлинг состоит из двух этапов: сначала сырой сигнал разбивается на сегменты, затем определенная модель применяется для трансляции сегментов в k-меры. В статье описывается алгоритм Chiron, совмещающий свёрточную и рекуррентную нейронные сети, а также CTC декодер (Connectionist Temporal Classification decoder), что позволяет транслировать сигнал напрямую, минуя стадию разбиения на сегменты. Для обучения алгоритма понадобилось относительно небольшое количество данных: 4000 ридов бактериальных и вирусных геномов. Тем не менее обученная сеть может использоваться и для расшифровки других геномов, например, млекопитающих. Скорость бейсколлинга в новом алгоритме достигает 2000 нуклеотидов в секунду, и для этого требуется мощность стандартного GPU настольного компьютера. Источник: www.biorxiv.org Комментарии: |
|