First Oxford Nanopore sequencing run |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-12-31 13:01 Как мы запускали MinION - часть 3. Новый Год для биоинформатиков наступил раньше срока: мы представляем вам третью, самую интересную и информативную часть рассказа о том, как мы запускали “нанопору”! Напомним, что Александр Предеус (Институт биоинформатики) и Виктор Старунов (кафедра зоологии беспозвоночных, СПбГУ) решили секвенировать геном пресноводной мшанки Cristatella mucedo с помощью секвенатора третьего поколения MinION. В первой части (goo.gl/M7pgAQ) мы рассказали про принцип данной технологии и ее преимущества, во второй (goo.gl/VKdkcu) — про коррекцию ошибок и стоимость запуска. В этой части мы подробнее расскажем о разных протоколах подготовки образцов для секвенирования и покажем видео подготовки и запуска нашего секвенатора! См. картинку 1 - фото мшанки (автор - Виктор Старунов) В случае, если вы уже решили прочитать какой-нибудь небольшой геном и заказали в Oxford Nanopore так называемый «Starter Pack», вы получите секвенатор, напоминающий флешку и сам по себе почти ничего не стоящий, две ячейки (flow cells), которые и составляют большую часть стоимости набора, а также реактивы для 6 реакций секвенирования. Именно такой набор укладывается по стоимости в 1300$ (включая налог) в Англии, при этом ячейки после использования нужно отправить обратно в компанию. Одному пользователю полагается не более одного набора - дальше нужно покупать комплектующие побо лее высокой цене. При покупке нужно выбрать способ пробоподготовки - разница между ними будет описана ниже. Вне зависимости от метода пробоподготовки, вы получаете одинаковые секвенаторы и ячейки (flow cells), но разные реактивы к ним. Напомним, что максимальная теоретическая производительность ячейки MinION составляет около 20 Гб, однако практически их производительность ниже; нынешний рекордсмен показал около 18 Гб, а типичный запуск в протоколе 1D генерирует около 5 Гб сиквенса. См. картинку 2 - RECORD BOARD В течение пяти дней после получения прибора обе полученные ячейки нужно протестировать - именно таковы условия гарантийной бесплатной замены от ONT (Oxford Nanopore Technologies). Перед тестированием надо убедиться, что ваш компьютер соответствует минимальным необходимым требованиям - на нем нужная операционная система (Windows, MacOS, или Ubuntu); установлена последняя версия программы MinKNOW, в которой осуществляется тестирование и секвенирование; компьютер оборудован портом USB 3.0; имеет не менее 700 Гб свободного места. Официальная документация требует не менее 1 Тб, причем в виде SSD, однако практика показывает, что это совсем не обязательно - достаточно быстрого HDD, и 700 Гб также часто оказывается достаточно. Следует отметить, что основная программа MinKNOW гладко работает под Windows и MacOS, но нередко вызывает проблемы на Ubuntu. Тестирование представляет собой нехитрую последовательность действий и не требует загрузки на ячейку чего-либо. Сперва ячейке нужно дать нагреться до комнатной температуры - процесс тестирования не начнется, пока эта температура не будет достигнута. Сам прибор нужно подключить к порту USB 3.0: в в нем загорятся светодиоды и начнет работать кулер. Ячейку нужно вынуть из упаковки, аккуратно поместить ее в прибор и запустить программу тестирования в MinKNOW. Важно: если в вашей ячейке менее 800 активных пор, то такая ячейка подлежит замене по гарантии. По инсайдерской информации, внутри ONT ячейки делят на несколько категорий: ячейки с 800 и менее порами считаются бракованными, с 800-1100 порами - пользовательскими, с 1100-1400 порами - экстра, а с 1400 и более порами - элитными. Производительность ячейки прямо пропорциональна количеству активных пор, и шанс получить более 10 Гб есть только у элитной ячейки. После проверки качества ячейки ее нужно убрать обратно в холодильник (на 4С - ни в коем случае не замораживайте ячейки!) См. картинку 3 - testing Теперь необходимо подготовить ДНК: этот шаг неизбежен в любом секвенировании, вопрос только в затраченных усилиях. Oxford Nanopore разработал три принципиально разных варианта подготовки образцов: Rapid, 1D, и 2D. Последний был недавно заменен на более совершенный вариант протокола, названный 1D^2. Хотя в нем значительно повышается точность определения индивидуальных нуклеотидов, он не пользуется большой популярностью из-за относительно невысокой производительности, требования дополнительных реактивов, и заметно большей трудоемкости пробоподготовки. К тому же, вокруг технологии 2D разгорелись очередные патентные тяжбы, которых с участием Oxford Nanopore было уже немало. По названию протокола Rapid можно догадаться о его достоинствах, и он действительно очень быстрый: после того, как ДНК выделена и очищена, опытному лаборанту требуется не более 10 минут на подготовку, после чего библиотеку можно загружать в секвенатор и запускать его хоть в космос. Принцип подготовки похож на протокол от Illumina типа Nextera: в пробу ДНК добавляется модифицированный фермент-транспозаза, который разрезает ДНК в случайных местах, одновременно с этим прикрепляя на концы адаптеры. Именно операционная простота протокола позволяет использовать его несколько особенным образом. Дело в том, что очень длинная ДНК отличается большой хрупкостью и чувствительностью к любым механическим воздействиям. Пропустив раствор геномной ДНК через тонкую иглу шприца 10 раз подряд, ее можно раздробить до среднего размера в 20-30.000 п.н. Именно поэтому протокол Rapid был оптимизирован (goo.gl/7EzK2P) для получения ультра-длинных ридов с медианой (!) длины в 100.000 п.н. Недавно обновленный абсолютный рекорд по длине единичного прочтения — 970.000 п.н., выравнивающийся на 1.034.000 п.н. референса (сам рид короче референса за счет делеций). Напомним, что средняя длина при обычном секвенировании MinION - 10.000 п.н., однако, в отличие от PacBio, она не ограничена возможностями ДНК-полимеразы, которая практически не способна синтезировать фрагмент длиннее 10.000 нуклеотидов. См. картинку 4 - Ecoli read tweet Такие показатели длины не обходятся даром: производительность в этом протоколе немного уступает заявленной. При средней производительности удачного запуска 1D в 5 Гб, Rapid даст около 1-3 Гб. Чтобы использовать производительность прибора по максимуму, нужно выбирать протокол 1D, который основан на лигировании двухцепочечных адаптеров, а также требует небольшого количества дополнительных реактивов, которые не включены в стартовый набор. Такой вариант больше похож на подготовку проб для других секвенаторов (таких, как Illumina), и требует тех же реактивов. Для очистки ДНК в протоколе 1D требуются также 2-3 итерации осаждения на магнитных шариках (SPRI beads) при помощи магнитного штатива - именно большей чистотой библиотеки на входе и объясняется значительно более высокий выход секвенирования по методу 1D. В противном случае в образцах остается слишком много белков, которые блокируют нанопоры, быстро уменьшая количество доступных пор. См. картинку 5 - SPRI beads precipitation Наконец, секвенирование! Начать секвенирование на приборе очень легко: нужно выбрать подходящий тип ячейки (R9.4 и R9.5, остальные уже не поддерживаются), время секвенирования (типичное время - 48 часов), и определение оснований (live basecalling). Последнее сильно загружает даже самый современный и мощный ноутбук, но позволяет получать последовательности, сходящие с секвенатора, практически в режиме реального времени. Если такой необходимости у вас нет, то мы рекомендуем выключить определение оснований и сделать его потом. На мощном сервере (16 CPU и более) обработка одного запуска может занять менее часа. К тому же, если вы выключите live basecalling, вы можете подключить более одного работающего прибора к одному и тому же компьютеру - лишь бы хватало портов USB 3.0 и объема диска. На экране MinKNOW будут появляться данные по количеству и длине получаемых прочтений, хотя длина будет выражена не в типичных нуклеотидах, а в так называемых “событиях” (events) - это предварительная оценка прибора, которая занижена примерно в 1.7 раз (а для экстра-длинных прочтений коэффициент может расти до 4-5). Таким образом, рид длиной в 10.000 events на самом деле имеет длину 17.000 п.н. На экране контроля секвенатора - постоянно меняющиеся данные о его статусе. Самыми важными с практической точки зрения являются значения single pore и strand: первый показывает количество пустых пор, доступных для секвенирования, а второй - количество пор, которые в данный момент секвенируют ДНК. Эти значения будут устойчиво падать в течение всех 48 часов секвенирования. Если у вас “работает” 300-400 пор, то можете ждать выдающегося результата; если 100-200 - хорошего и очень хорошего; если же активных пор менее 100, то результат вряд ли будет удовлетворительным. См. картинку 6 - running Размер генома мшанки, по предварительным оценкам, составлял 500-850 Мб, поэтому при его секвенировании были опробованы оба протокола. Протокол Rapid в сумме сгенерировал 2.1 Гб прочтений, при этом самый длинный рид составил 740.000 оснований — пусть это далеко от рекорда, но мы были очень впечатлены! Первый запуск 1D на выходе дал 6.9 Гб прочтений. Для сравнения: проект по Nanopore-секвенированию “самого отсеквенированного человека на Земле”, девушки из Юты, известной под номером NA12878 (https://goo.gl/95AC6r), в каждом из 39 запусков получал меньшее количество сиквенса! Второй запуск позволил получить всего 3.5 Гб сиквенса - мы использовали недостаточно ДНК. Наш лабораторный опыт, а также результаты многих других лабораторий, однозначно свидетельствуют: чем больше ДНК вы возьмете для запуска, тем успешнее он будет (конечно, в разумных пределах). Однако повышение исходного количества ДНК с 1 мкг, заявленных в методике, до 10-15 мкг, однозначно радикально улучшает ваши шансы попасть на Poreboard! Сам запуск дал нам массу положительных эмоций - могли ли мы когда-либо мечтать за какие-то полчаса перейти от прозрачного раствора ДНК к первым последовательностям, которые можно выравнивать, анализировать и классифицировать? Ссылка на видео с запуском: https://vimeo.com/249092822?activityReferer=1 После получения всех этих данных следует этап анализа данных и качества секвенирования, выравнивания ридов и сборки генома - о них мы расскажем вам позже. Работа с такими ридами достаточно специфическая, и сильно отличается от привычной геномной биоинформатики. С развитием технологий длинных прочтений появился даже специальный термин: long-reads bioinformatics, который включает в себя множество программ, разработанных специально для работы с длинными прочтениями и учитывающих такие особенности, как плохая выравниваемость длинных ридов, поиск ошибок секвенирования, и оптимизация стратегий сборки. На этом, поздравляем всех с Новым Годом! Желаем всем длинных прочтений, рекордных выходов, и безошибочных сборок до самых теломер! Мы хотели бы выразить благодарность всем участвовавшим и помогавшим в этом проекте: Александре Белявской (University of Liverpool), Андрею Островскому (University of Vienna/кафедра зоологии беспозвоночных, СПбГУ), Марии Раутиан (кафедра зоологии беспозвоночных, СПбГУ), Максиму Нестеренко (кафедра зоологии беспозвоночных, СПбГУ), Николаю Вяххи (Институт биоинформатики), и, конечно, Марине Слащевой - за подготовку всех материалов! Автор текста: Александр Предеус Источник: vk.com Комментарии: |
|