First Oxford Nanopore sequencing run

2017-12-31 13:01

Как мы запускали MinION - часть 3.

Новый Год для биоинформатиков наступил раньше срока: мы представляем вам третью, самую интересную и информативную часть рассказа о том, как мы запускали “нанопору”! Напомним, что Александр Предеус (Институт биоинформатики) и Виктор Старунов (кафедра зоологии беспозвоночных, СПбГУ) решили секвенировать геном пресноводной мшанки Cristatella mucedo с помощью секвенатора третьего поколения MinION. В первой части (goo.gl/M7pgAQ) мы рассказали про принцип данной технологии и ее преимущества, во второй (goo.gl/VKdkcu) — про коррекцию ошибок и стоимость запуска. В этой части мы подробнее расскажем о разных протоколах подготовки образцов для секвенирования и покажем видео подготовки и запуска нашего секвенатора!

См. картинку 1 - фото мшанки (автор - Виктор Старунов)

В случае, если вы уже решили прочитать какой-нибудь небольшой геном и заказали в Oxford Nanopore так называемый «Starter Pack», вы получите секвенатор, напоминающий флешку и сам по себе почти ничего не стоящий, две ячейки (flow cells), которые и составляют большую часть стоимости набора, а также реактивы для 6 реакций секвенирования. Именно такой набор укладывается по стоимости в 1300$ (включая налог) в Англии, при этом ячейки после использования нужно отправить обратно в компанию. Одному пользователю полагается не более одного набора - дальше нужно покупать комплектующие побо лее высокой цене. При покупке нужно выбрать способ пробоподготовки - разница между ними будет описана ниже. Вне зависимости от метода пробоподготовки, вы получаете одинаковые секвенаторы и ячейки (flow cells), но разные реактивы к ним. Напомним, что максимальная теоретическая производительность ячейки MinION составляет около 20 Гб, однако практически их производительность ниже; нынешний рекордсмен показал около 18 Гб, а типичный запуск в протоколе 1D генерирует около 5 Гб сиквенса.

См. картинку 2 - RECORD BOARD

В течение пяти дней после получения прибора обе полученные ячейки нужно протестировать - именно таковы условия гарантийной бесплатной замены от ONT (Oxford Nanopore Technologies). Перед тестированием надо убедиться, что ваш компьютер соответствует минимальным необходимым требованиям - на нем нужная операционная система (Windows, MacOS, или Ubuntu); установлена последняя версия программы MinKNOW, в которой осуществляется тестирование и секвенирование; компьютер оборудован портом USB 3.0; имеет не менее 700 Гб свободного места. Официальная документация требует не менее 1 Тб, причем в виде SSD, однако практика показывает, что это совсем не обязательно - достаточно быстрого HDD, и 700 Гб также часто оказывается достаточно. Следует отметить, что основная программа MinKNOW гладко работает под Windows и MacOS, но нередко вызывает проблемы на Ubuntu.

Тестирование представляет собой нехитрую последовательность действий и не требует загрузки на ячейку чего-либо. Сперва ячейке нужно дать нагреться до комнатной температуры - процесс тестирования не начнется, пока эта температура не будет достигнута. Сам прибор нужно подключить к порту USB 3.0: в в нем загорятся светодиоды и начнет работать кулер. Ячейку нужно вынуть из упаковки, аккуратно поместить ее в прибор и запустить программу тестирования в MinKNOW. Важно: если в вашей ячейке менее 800 активных пор, то такая ячейка подлежит замене по гарантии. По инсайдерской информации, внутри ONT ячейки делят на несколько категорий: ячейки с 800 и менее порами считаются бракованными, с 800-1100 порами - пользовательскими, с 1100-1400 порами - экстра, а с 1400 и более порами - элитными. Производительность ячейки прямо пропорциональна количеству активных пор, и шанс получить более 10 Гб есть только у элитной ячейки. После проверки качества ячейки ее нужно убрать обратно в холодильник (на 4С - ни в коем случае не замораживайте ячейки!)

См. картинку 3 - testing

Теперь необходимо подготовить ДНК: этот шаг неизбежен в любом секвенировании, вопрос только в затраченных усилиях. Oxford Nanopore разработал три принципиально разных варианта подготовки образцов: Rapid, 1D, и 2D. Последний был недавно заменен на более совершенный вариант протокола, названный 1D^2. Хотя в нем значительно повышается точность определения индивидуальных нуклеотидов, он не пользуется большой популярностью из-за относительно невысокой производительности, требования дополнительных реактивов, и заметно большей трудоемкости пробоподготовки. К тому же, вокруг технологии 2D разгорелись очередные патентные тяжбы, которых с участием Oxford Nanopore было уже немало.

По названию протокола Rapid можно догадаться о его достоинствах, и он действительно очень быстрый: после того, как ДНК выделена и очищена, опытному лаборанту требуется не более 10 минут на подготовку, после чего библиотеку можно загружать в секвенатор и запускать его хоть в космос. Принцип подготовки похож на протокол от Illumina типа Nextera: в пробу ДНК добавляется модифицированный фермент-транспозаза, который разрезает ДНК в случайных местах, одновременно с этим прикрепляя на концы адаптеры. Именно операционная простота протокола позволяет использовать его несколько особенным образом. Дело в том, что очень длинная ДНК отличается большой хрупкостью и чувствительностью к любым механическим воздействиям. Пропустив раствор геномной ДНК через тонкую иглу шприца 10 раз подряд, ее можно раздробить до среднего размера в 20-30.000 п.н. Именно поэтому протокол Rapid был оптимизирован (goo.gl/7EzK2P) для получения ультра-длинных ридов с медианой (!) длины в 100.000 п.н. Недавно обновленный абсолютный рекорд по длине единичного прочтения — 970.000 п.н., выравнивающийся на 1.034.000 п.н. референса (сам рид короче референса за счет делеций). Напомним, что средняя длина при обычном секвенировании MinION - 10.000 п.н., однако, в отличие от PacBio, она не ограничена возможностями ДНК-полимеразы, которая практически не способна синтезировать фрагмент длиннее 10.000 нуклеотидов.

См. картинку 4 - Ecoli read tweet

Такие показатели длины не обходятся даром: производительность в этом протоколе немного уступает заявленной. При средней производительности удачного запуска 1D в 5 Гб, Rapid даст около 1-3 Гб. Чтобы использовать производительность прибора по максимуму, нужно выбирать протокол 1D, который основан на лигировании двухцепочечных адаптеров, а также требует небольшого количества дополнительных реактивов, которые не включены в стартовый набор. Такой вариант больше похож на подготовку проб для других секвенаторов (таких, как Illumina), и требует тех же реактивов. Для очистки ДНК в протоколе 1D требуются также 2-3 итерации осаждения на магнитных шариках (SPRI beads) при помощи магнитного штатива - именно большей чистотой библиотеки на входе и объясняется значительно более высокий выход секвенирования по методу 1D. В противном случае в образцах остается слишком много белков, которые блокируют нанопоры, быстро уменьшая количество доступных пор.

См. картинку 5 - SPRI beads precipitation

Наконец, секвенирование! Начать секвенирование на приборе очень легко: нужно выбрать подходящий тип ячейки (R9.4 и R9.5, остальные уже не поддерживаются), время секвенирования (типичное время - 48 часов), и определение оснований (live basecalling). Последнее сильно загружает даже самый современный и мощный ноутбук, но позволяет получать последовательности, сходящие с секвенатора, практически в режиме реального времени. Если такой необходимости у вас нет, то мы рекомендуем выключить определение оснований и сделать его потом. На мощном сервере (16 CPU и более) обработка одного запуска может занять менее часа. К тому же, если вы выключите live basecalling, вы можете подключить более одного работающего прибора к одному и тому же компьютеру - лишь бы хватало портов USB 3.0 и объема диска. На экране MinKNOW будут появляться данные по количеству и длине получаемых прочтений, хотя длина будет выражена не в типичных нуклеотидах, а в так называемых “событиях” (events) - это предварительная оценка прибора, которая занижена примерно в 1.7 раз (а для экстра-длинных прочтений коэффициент может расти до 4-5). Таким образом, рид длиной в 10.000 events на самом деле имеет длину 17.000 п.н. На экране контроля секвенатора - постоянно меняющиеся данные о его статусе. Самыми важными с практической точки зрения являются значения single pore и strand: первый показывает количество пустых пор, доступных для секвенирования, а второй - количество пор, которые в данный момент секвенируют ДНК. Эти значения будут устойчиво падать в течение всех 48 часов секвенирования. Если у вас “работает” 300-400 пор, то можете ждать выдающегося результата; если 100-200 - хорошего и очень хорошего; если же активных пор менее 100, то результат вряд ли будет удовлетворительным.

См. картинку 6 - running

Размер генома мшанки, по предварительным оценкам, составлял 500-850 Мб, поэтому при его секвенировании были опробованы оба протокола. Протокол Rapid в сумме сгенерировал 2.1 Гб прочтений, при этом самый длинный рид составил 740.000 оснований — пусть это далеко от рекорда, но мы были очень впечатлены! Первый запуск 1D на выходе дал 6.9 Гб прочтений. Для сравнения: проект по Nanopore-секвенированию “самого отсеквенированного человека на Земле”, девушки из Юты, известной под номером NA12878 (https://goo.gl/95AC6r), в каждом из 39 запусков получал меньшее количество сиквенса! Второй запуск позволил получить всего 3.5 Гб сиквенса - мы использовали недостаточно ДНК. Наш лабораторный опыт, а также результаты многих других лабораторий, однозначно свидетельствуют: чем больше ДНК вы возьмете для запуска, тем успешнее он будет (конечно, в разумных пределах). Однако повышение исходного количества ДНК с 1 мкг, заявленных в методике, до 10-15 мкг, однозначно радикально улучшает ваши шансы попасть на Poreboard! Сам запуск дал нам массу положительных эмоций - могли ли мы когда-либо мечтать за какие-то полчаса перейти от прозрачного раствора ДНК к первым последовательностям, которые можно выравнивать, анализировать и классифицировать?

Ссылка на видео с запуском: https://vimeo.com/249092822?activityReferer=1

После получения всех этих данных следует этап анализа данных и качества секвенирования, выравнивания ридов и сборки генома - о них мы расскажем вам позже. Работа с такими ридами достаточно специфическая, и сильно отличается от привычной геномной биоинформатики. С развитием технологий длинных прочтений появился даже специальный термин: long-reads bioinformatics, который включает в себя множество программ, разработанных специально для работы с длинными прочтениями и учитывающих такие особенности, как плохая выравниваемость длинных ридов, поиск ошибок секвенирования, и оптимизация стратегий сборки.

На этом, поздравляем всех с Новым Годом! Желаем всем длинных прочтений, рекордных выходов, и безошибочных сборок до самых теломер! Мы хотели бы выразить благодарность всем участвовавшим и помогавшим в этом проекте: Александре Белявской (University of Liverpool), Андрею Островскому (University of Vienna/кафедра зоологии беспозвоночных, СПбГУ), Марии Раутиан (кафедра зоологии беспозвоночных, СПбГУ), Максиму Нестеренко (кафедра зоологии беспозвоночных, СПбГУ), Николаю Вяххи (Институт биоинформатики), и, конечно, Марине Слащевой - за подготовку всех материалов!

Автор текста: Александр Предеус

Источник: vk.com

First Oxford Nanopore sequencing run

Комментарии: