Биоинформатика в медицине

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Биоинформатика является одним из наиболее перспективных научных направлений. С помощью big data специалисты исследуют генетику, помогают в разработке медицинских препаратов и даже могут ставить диагнозы. Т&Р публикуют конспект лекции представителя компании Oncobox, которая помогает в лечении рака, Антона Буздина.

Антон Александрович Буздин

Доктор биологических наук, профессор, заведующий лабораторией трансляционной и геномной биоинформатики МФТИ и представитель компании Oncobox

Где мы используем большие данные

Биоинформатика — это отрасль очень разнообразная, разнородная, она переплетается с медициной. В частности, моя команда — это специалисты в области применения больших геномных данных для онкологии. Речь идет о тех случаях, когда подходы можно проверить в клиническом исследовании и зафиксировать результат научно. Большие данные состоят из трех V:

Volume — объем. То, что считали большими данными, допустим, 15 лет назад, сейчас капля в море. Большие данные — это то, что не помещается ни на какой жесткий диск, и, следовательно, оно должно быть распределено.

Velocity — скорость. Вы не можете сразу обработать весь объем данных. Это необходимо делать по мере их накопления с высокой скоростью.

Variety — разнообразие. Это очень разнородная информация, иногда хорошо аннотированная, иногда отвратительно.

Есть еще дополнительные V: value — ценность, veracity — достоверность (вы сортируете данные исходя из их достоверности), visualization — визуализация (эти колоссальные объемы информации необходимо адаптировать для восприятия посредством визуализации), viscosity — вязкость (данные сцеплены друг с другом), virality — жизнеспособность данных (данные быстро устаревают и становятся неактуальными).

Теперь поговорим о единицах измерения. Мегабайт — это большой рассказ, гигабайт — это уже информация, которую кодирует человеческий геном. Терабайт — это может быть годовой объем литературы, включая периодику. Петабайт — объем всех американских библиотек. Эксабайт — это две трети ежегодной информации, которая генерируется на планете.

Если оценить объем информации на всей планете к концу 2020 года, это будет 40–60 зеттабайт

Само понятие «большие данные» появилось только в 2008 году. Однако теоретические основы были заложены еще в 70-х, когда проектировали системы для работы с большими данными. Практической ценности это не имело.

Работа с большими данными — это может быть наблюдение за природой, звездами, СМИ. Информация в основном приходит от физиков-экспериментаторов, много поступает финансовой информации, телекоммуникации. Важное направление — интернет вещей, который генерирует колоссальные объемы данных, которыми устройства обмениваются друг с другом. Еще одна отрасль — биоинформатика и медицина.

Если говорить о биоинформатике и медицине, это так называемые омиксные данные: геномные, транскриптомные, протеомные, метаболомные, эпигеномные, интерактомные и фармакогеномные.

Геномные — это ДНК, гены.

Транскриптомные — это то, как эти гены работают, то есть РНК, которая получается из этих генов. Соответственно, чем больше РНК, тем активнее ген.

Протеомные — все то же самое, только про белки.

Метаболомные — это информация про различные химические вещества, которые участвуют в реакциях биохимических превращений в живых организмах.

Эпигеномные — это то, как ДНК функционирует. ДНК не может работать в чистом виде. Представьте, что вы упаковали журналы плотно в какие-то ящики и положили их на антресоль. Если вам срочно нужно открыть какой-нибудь журнал, вы это сделать не можете. Вы должны достать с антресоли эти журналы из ящика, высыпать, потом найти нужный и так далее. Этим занимается как раз эпигенетика и эпигеномные данные. То есть ДНК, которая, условно говоря, лежит в быстром доступе, и та, которую трудно достать. И то и другое нужно для нормального функционирования клетки, но это уже другая история.

Далее идут интерактомные данные. Интерактомика — это наука о взаимодействии всего со всем. Соответственно, это касается и живой клетки. Белки могут взаимодействовать с метаболитами, то есть с химическими веществами, с ДНК, РНК.

Фармакогеномика — это отрасль, которая ищет связь между действием лекарств и какими-то геномными особенностями.

Существует множество методов для анализа данных: reinfocement learning — ансамблевые методы, deep learning — искусственные нейросети, класс методов, которые называются data mining (регрессионный анализ, классификация, кластерный анализ, поиск паттернов, каких-то характеристических черт, поиск аномалий, анализ временных рядов).

Google научился предсказывать всплески заболеваемости гриппом. Google накапливал информацию просто о поисковых запросах в течение 5–6 лет. В 2009 году на основе накопленной информации они построили некий алгоритм, который на ретроспективных данных предсказывал пики заболеваемости гриппом.

Большой исследовательский институт в США предсказывал заболеваемость гораздо хуже, чем Google. Привело это к тому, что, например, приложение, которое раньше было в открытом доступе и называлось Google Flu, сейчас вы уже не найдете. Таким образом, Google заменил собой, можно сказать, в каком-то смысле целый институт.

Теперь рассмотрим систему IBM Watson, которая является следующим достижением анализа больших данных, потому что IBM Watson научился понимать вопросы, сформулированные на естественном языке. IBM Watson может читать литературу, вашу переписку, статьи и потом на основе прочитанного делать дайджест, классифицировать информацию, формировать какие-то таблицы, оттуда вытаскивать нужную информацию.

Источник: webno.ru

Источник: webno.ru

С 2013 года IBM Watson работает в Memorial Sloan Kettering Cancer Center в Соединенных Штатах. Он анализирует данные, но врачи не прислушиваются, а лечат согласно неким стандартам. Потому что, если они не будут следовать стандартам, их просто всех посадят в тюрьму и еще и не оплатят их услуги, потому что страховая платит по стандартам.

Теперь вернемся к большим геномным данным. Все привыкли, что когда-то астрономически большие числа были недоступны для нас. Особенно в области медицины, в частности в геномике (раздел молекулярной генетики, посвященный изучению генома и генов живых организмов), было невозможно что-либо посчитать.

Как работает геномика

При помощи специального аппарата можно определять первичную последовательность ДНК. Это совокупность большого количества сравнительно коротких прочтений, из которых потом составляется пазл целого генома или его отдельных частей. Например, можно отсеквенировать не весь геном, а панель из 50 интересующих генов. Это будет приблизительно 100 мегабайт.

Можно отсеквенировать с достаточным покрытием панель всего экзома. Экзом — это вся совокупность белок-кодирующих генов из нашего генома. В частности, для генома человека белок кодируют только примерно 2% его последовательности. Эти 2% его последовательности — это будет 20 гигабайт. Последовательность всего генома с меньшим покрытием — 200 гигабайт.

Компания Grail занимается так называемой жидкостной биопсией. Берут анализы крови и по ним предсказывают, есть у человека онкозаболевание или нет, и пытаются предсказывать, чем лечить. С 2015 года компания поднялась в стоимости до 1,7 миллиарда долларов.

Другая компания — Tempus. Дошли по инвестициям до серии F. Серия А — значит, сначала есть посевное финансирование, потом идут раунды инвестирования: А, B, C, D, E и F. Они тоже накапливают данные в области молекулярной онкологии и на основе их пытаются делать некие отчеты по пациенту, которые включают план лечения и определенные параметры, которые важны для выбора терапии.

Мы разработали платформу в рамках работы в компании Oncobox, в которую входит информация о клинически аннотированных молекулярных профилях опухолей. То есть это геномная и транскриптомная информация, некие образцы тканей от здоровых людей, которые служат эталоном для сравнения. Платформа предсказывает эффективность противоопухолевой терапии.

Мы сравниваем опухолевые ткани пациентов с большим банком нормальных тканей, что позволяет нам понимать, что не так в опухолевой ткани

Пару слов о том, на чем основан алгоритм. В клетке отдельные белки не работают сами по себе, а работают в тесной связке друг с другом в рамках так называемых молекулярных путей. Каждый из участников взаимодействует с другим участником посредством каких-то взаимодействий, которые могут быть активирующими, блокирующими или ингибирующими.

Составляется молекулярный путь, причем стоит отметить, что таких молекулярных путей на самом деле несколько тысяч — известных только для человеческой клетки. И все эти молекулярные пути взаимодействуют, вернее существуют, не отдельно друг от друга, но еще и тесно взаимодействуют друг с другом.

На основании этой информации (активирован путь или подавлен, а также активирована или подавлена мишень противоракового препарата) мы можем рассчитывать некий сбалансированный рейтинг, который и дает оценку потенциальной клинической эффективности для каждого противоракового препарата.

Как пример, вот опубликованный нами в журнале Cold Spring Harbor Molecular Case Studies случай женщины с гранулезоклеточным раком яичников, 40 лет, которая прогрессировала на стандартных методах терапии и, в общем, давно уже умерла бы, если бы по итогам нашего анализа ей не была бы назначена экспериментальная терапия.

Препараты, согласно нашему отчету, назначаются в 62% всех проблемных случаев для пациентов, которые были включены в испытания. Контроль над заболеванием оказался гораздо выше, а именно 55% в группе пациентов, которые получают терапию согласно рекомендациям Oncobox, по сравнению с пациентами, получившими другую терапию.

Большие данные применимы для выявления заболеваний на ранних стадиях в медицине, для анализа изображений рентгеновских снимков, МРТ, КТ, УЗИ, а также иммуногистохимических изображений. Применимы они для подбора препаратов и схем лечения, для разработки сопутствующей диагностики и новых лекарственных средств.


Источник: theoryandpractice.ru

Комментарии: