На планете Земля обитают миллионы биологических видов — это огромное разнообразие заложено на генетическом уровне. Анатомия, размер, окрас, образ жизни животных определяются их генами. Между тем вариативность самих генов заметно меньше — их ученые насчитали более 20 тысяч. Получается, что два вида отличаются друг от друга не только набором генов, но и тем, как они расположены друг относительно друга. На языке сравнительной геномики это называется синтения, то есть порядок расположения генов и регуляторных элементов.
«Возьмем, к примеру, гориллу и шимпанзе, — рассказывает инженер-исследователь Университета ИТМО Ксения Крашенинникова, — эти два вида имеют одинаковый набор генов, но элементы их регуляции и перестройки генома создают немного разный порядок, что приводит к отличиям между этими приматами».
Таким образом, чтобы понять, насколько два вида эволюционно близки друг к другу, ученым нужно знать не только какие именно у них гены, но и то, как эти гены располагаются в хромосоме, много ли у животных общих фрагментов генома или синтенных блоков. Но искать такие общие участки вручную невозможно — слишком большой объем данных. Геномы млекопитающих состоят из миллионов и миллиардов пар оснований — освоить такой объем без технологии обработки больших данных практически невозможно. Поэтому ученые создают свои программы, которые позволяют решать новый класс задач, возникших в ходе развития науки. Именно это сделала группа ученых, в которую вошли сотрудники научно-образовательного центра Геномного разнообразия Университета ИТМО.
Разработка ученых получила название halSynteny, как утверждают ее создатели, она справляется с поиском синтенных блоков быстрее и лучше, нежели другие программы, созданные для этой цели. При этом программа принимает данные сразу в двух стандартных и хорошо документированных форматах. Работа опубликована в журнале
«Нашей целью было написать алгоритм, который было бы легко применить к доступным данным, — рассказывает Крашенинникова, первый автор научной работы. — Некоторые подходы к поиску синтенных последовательностей основываются на предварительной аннотации генов, а наш метод работает немного иначе. Мы не используем дополнительную аннотацию. Мы используем метод выравнивания, то есть разные участки одного генома сопоставляются по степени похожести с участками другого генома. Таким образом мы можем выделить гомологичные участки, то есть обладающие одним и тем же происхождением».
Программа позволяет ускорить вычисления более чем в два раза по сравнению с другим популярным методом SatsumaSynteny2. Высокая производительность была достигнута с помощью реализации на языке C++ математически эффективного алгоритма.
Предложенный метод и программа были опробованы при сравнении геномов кошки и собаки. «Мы показали, что крупные фрагменты хромосом кошки и какие-то фрагменты хромосом собаки объединяются в синтенные блоки, то есть они произошли от одних и тех же хромосом общего предка. На этой основе уже можно делать выводы о том, как происходил эволюционный процесс. Так, мы увидели, что кошки по сравнению с общим предком хищных имеют менее перестроенный геном, нежели собаки», — добавляет исследователь.
В дальнейшем этот алгоритм будет использоваться и в других исследованиях по сравнительной геномике, проходящих на базе университета.
Материал предоставлен пресс-службой Университета ИТМО