За что я люблю биоинформатику — так это за то, что она очень эластична по усилию. Ясно, что надо очень много думать. Зато чем дольше думаешь, тем лучше результат. Михаил Гельфанд
Биоинформатика — это биология, которая делается не в поле и не в пробирке, а на компьютере. Сегодня мы расскажем о лаборатории биоинформатики, которую возглавляет один из самых знаменитых биоинформатиков России, профессор Михаил Гельфанд. Эта статья завершает цикл статей в партнерстве с Центром наук о жизни (CLS) Сколковского института науки и технологий (Сколтеха). Мы расскажем о биоинформатике, профессор Гельфанд — о самых интересных исследованиях, которые проводят в лаборатории, а магистранты и сотрудники — о своих впечатлениях от обучения и работы.
Что такое биоинформатика, и с чем ее едят
Термин «биоинформатика» придумали нидерландские биолог-теоретик Паулин Хогевег и ее коллега Бен Хеспер в 1978 году. Первоначально под биоинформатикой подразумевали «изучение информационных процессов в биологических системах» при помощи компьютера. Компьютер до сих пор — главный инструмент биоинформатика.
Сегодня благодаря биоинформатике получается решать фундаментальные задачи в самых разных областях биологии. «Биоинформатика очень большая и разнообразная, — рассказывает Михаил Гельфанд. — Кто-то работает в области анализа больших данных, кто-то ближе к эволюционной биологии, а есть люди, которые пишут алгоритмы и программы».
Биоинформатика объединяет огромное количество методов «сухой» биологии, однако в ней можно выделить три больших направления:
Структурное моделирование молекул. Это наиболее «физический» из представленных подходов: модель описывает строение молекул на уровне отдельных атомов, и не только их пространственную структуру, но и динамику, и взаимодействия с другими молекулами. Структурное моделирование молекул широко используют, например, для создания новых фармацевтических препаратов. О том, как это работает, мы подробно писали в статьях «Драг-дизайн: как в современном мире создаются новые лекарства» [4] и «Молекулярная динамика биомолекул. Часть I. История полувековой давности» [5].
Функциональная и сравнительная геномика. Первая помогает разобраться, для чего нужны отдельные участки генома, а вторая сопоставляет отдельные гены или группы генов у организмов, отстоящих друг от друга в эволюционном смысле. Всё это дает возможность понять, как на самом деле работает мир вокруг нас. Подробнее об этих направлениях рассказано в статьях «“Омики” — эпоха большой биологии» [6] и «12 методов в картинках: “сухая” биология» [7].
Системная биология занимается изучением сложных взаимодействий в живых организмах и рассматривает клетку как сложную систему взаимодействующих элементов. Подробнее об одном из методов этого направления читайте в публикации «Биомолекулы»: «В поисках новых лекарств: математическое моделирование поведения живой клетки» [8].
Научная работа
Прежде всего важно уточнить, что сотрудники группы под руководством профессора Гельфанда работают в системной биологии и в функциональной и сравнительной геномиках. Структурным моделированием молекул здесь не занимаются.
Всё, что нужно биоинформатику для работы, — компьютер; другого сложного оборудования здесь нет. Некоторые вычислительные задачи можно делать и на хорошем ноутбуке с интернетом, однако домашний компьютер подходит не для всех задач.
«Биоинформатические задачки довольно сильно отличаются от обычных вычислительных, — рассказывает Михаил Гельфанд. — Например, для геномных исследований биоинформатику нужен мощный компьютер правильной конфигурации — хороший кластер ».
Кластер — объединенная высокоскоростным каналом связи группа компьютеров, которая работает как единый аппаратный ресурс.
Каждый год сотрудники группы под руководством профессора Гельфанда публикуют результаты работ в международных научных журналах, среди которых Scientific Reports[10], Nucleic Acids Research[11], PNAS[12], RNA[13] и другие. О некоторых работах нам бы хотелось рассказать подробнее.
«Сладкий» комар и белки теплового шока
Ангидробиоз — форма анабиоза, то есть необходимого для выживания замедленного обмена веществ, которая возникает при сильном высыхании [14]. Самое сложное живое существо, способное пережить ангидробиоз, — личинка африканского комара вида Polypedilum vanderplanki, выживающая при потерях воды до 97%. Биоинформатикам удалось показать, какие именно биологические механизмы управляют высыханием и возвращением комара к жизни.
«Когда личинка комара высыхает, вода в ее организме замещается надисахарид трегалозу. Комар превращается во что-то вроде леденца, который при этом сохраняет молекулярные и клеточные структуры, — рассказывает Михаил Гельфанд. — А потом личинка попадает в воду, размокает, и получается нормальный живой розовый червяк».
Исследование, посвященное комару, опубликовано в журнале PNAS[12]. Первый автор статьи, Павел Мазин, который недавно защитился в Институте проблем передачи информации им. А.А. Харкевича, обнаружил, что есть особый белок — фактор теплового шока HSF, который управляет процессом приготовления к высыханию (рис. 2). У всех остальных насекомых этот белок регулирует тепловой шок.
«Такой результат выглядит логично — ведь высыхание очень похоже на тепловой шок, при котором рвется ДНК и денатурируют белки», — рассказывает Михаил Гельфанд.
Работа генов в куколке насекомого напоминает работу генов в яйце. Может быть, когда личинка насекомого превращается в куколку, генетическая программа, работавшая в яйце, запускается заново. Если исследователям из группы под руководством профессора Гельфанда удастся показать, что этот паттерн характерен для всех насекомых с полным превращением, это позволит понять интересный аспект эволюции насекомых.
Древние предки папуасов
После расшифровки полных ядерных геномов неандертальцев и денисовцев стало ясно, что их аллели присутствуют в геномах современных людей. Подобные исследования стали возможны после того, как были отсеквенированы геномы сначала современных, а затем и древних людей.
После того как данные секвенирования сопоставили, оказалось, что у европейцев доля неандертальских генов меньше, чем у жителей Азии и Океании. Денисовские гены встречались в основном у жителей Океании, и совсем чуть-чуть — у азиатов и коренных американцев [15], [16]. Исследователи смогли показать, как геномы древних людей представлены в геномах папуасов (рис. 3) [17].
«Обычно геномы анализируют непосредственно те люди, которые их секвенируют. Но иногда, когда у нас появляются интересные идеи, мы анализируем эти данные в лаборатории, — рассказывает Михаил Гельфанд. — Например, совместно с Екатериной Храмеевой и Филиппом Хайтовичем мы сделали работу, в которой сравнивали неандертальские аллели (варианты генов) у европейцев и азиатов. Когда появились данные о геномах папуасов, мы решили посмотреть, как в них представлены неандертальские и денисовские аллели».
Екатерина Храмеева — кандидат наук, доцент CLS. Область научных интересов — анализ широкого спектра биологических данных: вариаций генома, архитектуры хроматина, экспрессии генов и эволюции метаболома.
Как было показано ранее , геномы папуасов действительно имеют необычный набор аллелей древних людей [19–21]. Неандертальских аллелей у них примерно столько же, сколько у других современных людей, но дополнительно есть еще и 5% денисовских аллелей. Однако в этом папуасы не уникальны: примесь денисовских аллелей есть еще у китайцев, тибетцев и гренландских эскимосов [22].
«Неандертальские аллели в геномах папуасов в основном есть в генах, ответственных за регуляцию транскрипции и нейрогенеза. Денисовские аллели в основном присутствуют в генах, отвечающих за ремоделирование костей и тканей», — резюмирует Михаил Гельфанд.
Чем люди отличаются от других приматов
Эволюционных биологов очень давно интригует вопрос, с чем связаны отличия людей от обезьян на генетическом уровне. Возможно, разгадка кроется не столько в геноме, сколько в особенностях «нарезания» генетического материала, которые характерны для людей. Речь идет об альтернативном сплайсинге [13].
«Существует разновидность альтернативного сплайсинга, которую очень не любят изучать, — рассказывает Михаил Гельфанд. — Это удержанные интроны, которые очень сложно отличить от генетического шума. Когда работаешь с удержанными интронами, всегда есть вероятность, что это не настоящий альтернативный сплайсинг, а какой-то результат незавершенного обычного сплайсинга».
Альтернативный сплайсинг — процесс, благодаря которому один и тот же ген может кодировать несколько белков. Во время альтернативного сплайсинга из первоначальной матричной РНК вырезаются разные интроны — поэтому зрелые РНК кодируют разные белки [25], [26]. Сотрудники группы под руководством профессора Гельфанда показали, что у людей и других приматов альтернативный сплайсинг довольно сильно различается (рис. 4).
Сотрудники лаборатории биоинформатики исследовали именно этот, самый интересный вид альтернативного сплайсинга, и опубликовали результаты в журнале RNA[13]. Оказалось, что, в отличие от детенышей шимпанзе и макак, у человеческих младенцев после рождения очень много удержанных интронов. Состояние новорожденного человека соответствует стадии внутриутробного развития у шимпанзе и макак. Получается, что, по сравнению с другими приматами, человеческий ребенок рождается недоношенным.
«Была даже идея взять эмбрионы мартышки в возрасте “минус полтора месяца” и посмотреть, будет ли у них наблюдаться тот же самый эффект, — пошутил Михаил Гельфанд. — Однако мартышек все-таки решили не мучить».
Обучение
Помимо научной работы, в CLS есть магистерская программа (мы писали о ней в статье «Науки о жизни: магистерская программа Сколтеха по биотехнологии» [2]). Цель программы — дать студентам представление о фундаментальных биологических процессах и наукоемком бизнесе, научить их не только биоинформатике, но и «мокрой» биологии. Руководитель программы — профессор Михаил Гельфанд.
«Любая биоинформатическая программа и алгоритм имеют глубокую базу в молекулярной эволюции, — рассказывает Михаил Гельфанд. — На наших курсах мы стремимся показать магистрантам, какие эволюционные идеи лежат в основе этих приемов».
Сотрудники группы отвечают за два курса: лабораторный курс по биоинформатике и курс по сравнительной геномике.
Базовый курс по биоинформатике — обязательный предмет для магистрантов первого года. Курс знакомит студентов с основными инструментами и алгоритмами, необходимыми в дальнейшей работе. «Курс биоинформатики — это совсем базовые вещи, которые необходимы работающему биологу, — рассказывает Михаил Гельфанд. — Я стараюсь не давать студентам набор программ, которыми надо пользоваться, потому что через несколько лет программы все равно будут другие, а пытаюсь объяснить общие принципы, даю то, что лежит в основе этих программ».
Михаил Гельфанд читает курс без слайдов, по старинке — с объяснениями на доске. Ассистенты профессора ведут семинары, где рассказывают, как работают программы, как ими пользоваться, и дают домашние задания.
По завершении курса студенты знают, что такое базовый филогенетический анализ [27], умеют применять в работе алгоритмы выравнивания последовательностей, анализировать структуру белка, читать аннотации генов и работать с основными базами данных, в которых хранятся данные о структуре генов и белков [7].
Аннотация — полное описание гена. Включает определение местоположения гена в геноме, описание всех его кодирующих областей, а главное — его функций. Каждый секвенированный геном нужно аннотировать — иначе его невозможно понять.
«Базовый курс по биоинформатике, который у нас был, состоял из лекций, которые читал Михаил Сергеевич Гельфанд, и практик, которые вели либо аспираты, либо постдоки, — рассказывает магистрант Артемий Жигулев. — Это чистая база биоинформатики, где рассказывают, например, про разные виды выравниваний. Этот курс был точно полезен людям с биологическим бэкграундом».
Курс по сравнительной геномике. Это один из курсов по выбору. Он дает возможность углубить знания, полученные на курсе по биоинформатике. Курс затрагивает темы сравнительной геномики — например, горизонтальный перенос генов, перестройки генома, пангеномы, метагеномы, генные сети и функциональные аннотации генов и белков.
«Курс по сравнительной геномике — в некоторой степени то же самое, только более глубоко, — рассказывает Михаил Гельфанд. — В курсе тоже есть идеи, которые используются для предсказания функций генов и белков — это практическая сторона. С теоретической стороны там курс эволюции геномов и регуляторных систем — те самые эволюционные идеи, которые за всей этой биоинформатикой стоят».
Для биолога курсы дают три вещи:
Навык решения конкретных исследовательских задач. Например, студент будет способен предсказать, как работает неизвестный белок, который нужно изучить.
Навык планирования сложных дорогостоящих экспериментов с большими данными. Студент будет знать, о чем хорошенько подумать на стадии планирования. «Ситуации: “А давайте мы сначала все данные получим, а потом посчитаем”, в реальной работе не бывает, — рассказывает Михаил Гельфанд. — Когда вы планируете эксперимент, вы уже должны себе представлять, как вы это будете обрабатывать».
Понимание того, насколько большую часть биологии можно «сделать в компьютере». Это помогает экономить время. А еще студенты перестают бояться эксперимента.
«Когда студенты начнут заниматься биологией, они смогут понять, где быстро посмотреть (или у кого выяснить) нужную им информацию, и будут знать правильные слова, — рассказывает Михаил Гельфанд. — Ведь эксперт — это не тот, кто всё знает, а тот, кто знает, где посмотреть. По окончании курса студенты будут такими маленькими экспертами».
Хороший студент по завершении курсов способен самостоятельно придумать биоинформатическую задачу, выполнить ее и написать об этом статью. У студентов, которые закончили магистратуру, регулярно возникают хорошие идеи, из которых вполне можно что-то сделать.
Достижения студентов
В Сколтехе группа под руководством профессора Гельфанда существует недолго — всего-навсего с июня 2016 года, поэтому говорить о достижениях студентов пока рановато. Пока самый интересный результат получил выпускник МГУ Михаил Молдован, который поступил в аспирантуру Сколтеха, где он продолжит работать под руководством М.С. Гельфанда.
«Наша работа посвящена редактированию транскриптомов у головоногих моллюсков: осьминогов, кальмаров и каракатиц. Редактирование транскриптома — это когда в уже готовой мРНК аденин меняется на аденозин, который потом считывается как гуанин, — рассказывает Михаил Гельфанд. — Это фактически замена А на Г, которая происходит не в геноме, а уже после его транскрипции — то есть после «прочтения»».
Науке уже были известны красивые примеры редактирования транскриптома — это можно наблюдать у человека и дрозофилы [28]. Но у этих организмов данный феномен встречается в единичных случаях. Осьминоги в этом смысле уникальный объект. У них редактируется каждый сотый аденин, то есть в каждом гене редактируется примерно по пять сайтов.
«Мне кажется, что в ходе исследования мы нашли довольно фундаментальную вещь, — рассказывает Михаил Гельфанд. — Похоже, редактирование транскриптома у осьминога — это способ “заполучить” гуанин там, где он нужен, еще до того, как произошла сама мутация.
Наше наблюдение такое: если есть осьминог, у которого “прямо сейчас” происходит редактирование аденина в гуанин, то с большой вероятностью у осьминога другого вида на этом месте уже произошла мутация — то есть гуанин там будет всегда».
Судя по всему, идет положительный отбор — определенные сайты действительно «хотят» превращаться в гуанин из-за эволюционного давления. Но пока мутация не произошла, осьминогам приходится «обходиться полумерами», подменяя аденин гуанином на уровне мРНК.
«Довольно сложно аккуратно показать этот эффект с технической точки зрения. Но пока похоже на то, что мы наблюдаем преадаптацию, то есть приготовление к мутации, — резюмирует Михаил Гельфанд. — Фактически, это попытка организма на эпигенетическим путем сделать такое изменение, которое было бы хорошо сделать генетическим и зафиксировать».
Будущее
У сотрудников группы под руководством профессора Гельфанда большие планы на будущее.
«Во-первых, мы будем доделывать работу про осьминогов, — делится руководитель исследовательской группы. — Если всё будет в порядке, надо будет наловить много-много осьминогов и безукоризненно показать эффект, который мы наблюдали. Чтобы так получилось, нужно собрать собственные данные. Первую работу мы делали на данных, которые уже были опубликованы, поэтому у нас не получилось сделать все тесты на отбор, которые хотелось бы сделать.
Во-вторых, хотелось бы продолжить исследование, которое мы начали в работе о “сладком” комаре. Нам хочется разобраться, откуда у насекомых вообще взялась куколка. Вот у тараканов и клопов нет никаких куколок, а у мух и жуков есть. Откуда? Предварительные исследования на “чужих” данных у нас тоже есть, но нужно сделать аккуратную работу на “своих”.
Помимо этих двух больших тем, есть всякая метагеномика. Какие бактерии живут в тлях? Какие бактерии живут в нефтяных скважинах? Это будет часть проектов тех студентов, которые сейчас защитились и поступают в аспирантуру».
Еще одно интереснейшее направление — большие данные в биологии. Нейросетями, которые помогают точнее ставить диагнозы, уже никого не удивишь. А ведь те же нейронные сети, «натасканные» на большие данные, можно использовать для того, чтобы что-нибудь предсказать.
Можно дать сети какую-нибудь задачу, а потом посмотреть, на что, собственно, «смотрела» нейросеть, когда пыталась ее решить. Это называется feature extraction — извлечение признаков. Что, если нейросеть в состоянии «выучить» какой-нибудь кусок новой биологии, до сих пор не известный людям? «Пока ничего безумно интересного нет, — отмечает Михаил Гельфанд. — Но мы постоянно пробуем идеи, которые другие люди не пробовали. Посмотрим, что из этого получится».
Совместно с лабораторией Гимельбранта из Гарварда сотрудники Сколтеховской группы пытаются проанализировать экспрессию генов в гомологичных хромосомах. Эти гены работают либо в материнских, либо в отцовских хромосомах — любопытно разобраться, от чего это зависит.
Как защитить диплом по биоинформатике в Сколтехе
Биоинформатика — очень разнообразная наука. В ней есть место задачам и связанным с анализом больших данных, и близким к эволюционной биологии. Поэтому стоит иметь представление и о том, и о другом. Но даже если вы новичок и в программировании, и в науках о живом — отчаиваться не надо. «Если у человека нет непреодолимой компьютерофобии, то он всему может научиться, — рассказывает Михаил Гельфанд. — Писать сложные программы не обязательно. У меня в Сан-Диего есть бывший ученик, теперь уже самостоятельный исследователь, очень хороший биоинформатик, страшно работоспособный, кучу новых белков пооткрывал, — так вот он, по-моему, программировать не умеет вообще. Пользуется исключительно существующими программами, и всё прекрасно получается.
Однако лучше всё-таки хотя бы немножко уметь программировать. Полезно научиться хотя бы писать скрипты, которые будут менять форматы данных, и самому делать простые фильтры. А дальше можно уже делать науку за счет интересной биологии».
А теперь самое интересное. Для того чтобы стать биоинформатиком, не обязательно даже заканчивать биофак! «У меня примерно пополам учеников — одни окончили биофак, а другие нет, — рассказывает Михаил Гельфанд. — Одна из моих самых успешных учениц — экономист по образованию. А в этом году мы приняли в магистратуру девушку, которая по базовому образованию — лингвист-переводчик. Хотя она выучила биологию очень хорошо.
В общем, биологию знать все-таки стоит. Подойдут и курсы, и книги. А от математического аппарата потребуется только умение четко думать и задавать продуманные вопросы — никакой особо сложной математики там нет».
Заключение
Сегодня уже ученым всего мира понятно, что биологии без информатики не бывает. При этом хороших биоинформатиков всё еще очень мало. Эти специалисты очень и очень ценятся, как в лабораториях, так и в бизнесе. Поэтому обучение в группе под руководством профессора Гельфанда — отличный шанс не только сделать интересные биологические наблюдения, которые в будущем смогут помочь изменить жизнь миллионов людей к лучшему, но и найти работу мечты!
Эта статья завершает цикл, посвященный Центру наук о жизни Сколковского института науки и технологий (Сколтеха). Надеемся, что из этого цикла вы узнали много нового и интересного. А если вы решите попробовать свои силы и поступить в магистратуру центра , мы будем считать, что наша миссия успешно завершена!
И кстати: до 1 октября 2019 года можно успеть поучаствовать в нашем научно-популярном конкурсе, который дает преимущества для поступления в сколтеховскую магистратуру в 2020 году.
Anna-Sapfo Malaspinas, Michael C. Westaway, Craig Muller, Vitor C. Sousa, Oscar Lao, et. al.. (2016). A genomic history of Aboriginal Australia. Nature. 538, 207-214;