Два способа познания: большие данные и доказательная медицина.

2022-01-17 14:37

Автор: Ида Сим, MD, PhD

Год издания: 2016

Ссылка на оригинал: https://pubmed.ncbi.nlm.nih.gov/26809201/

Доказательной медицине более 20 лет и ее методы (такие как тщательные клинические исследования, критическая оценка опубликованных доказательств и методологически строгие системные обзоры) используются для понимания того, что работает в медицине, а что нет. Однако в настоящее время методы «больших данных» предлагают привлекательную альтернативу методам доказательной медицины. Большие данные — это особый «культурный, технологический и научный феномен», в основе которого лежит применение алгоритмов машинного обучения к разнообразным крупномасштабным данным и на сегодняшний день, такие системы как IBM Watson помогают врачам с тактикой лечения рака, комбинирую данные из медицинских карт с геномными данными и научными публикациями. В связи с тем, что клиники и больницы генерируют огромное количество данных, собранных в электронных медицинских картах (EHR), скорость, источники и принципы генерации медицинских знаний могут значительно измениться при применении методов больших данных. Поэтому исследователи справедливо задаются вопросом, как и зачем применять большие данные в медицине?

Данные, Информация и Знания.

Большой интерес к методам работы с большими данными вызван доступностью, разнообразием, и «большими» объемами медицинских данных. Например, данные электронной медицинской карты (EHR) типичного человека среднего возраста примерно соответствуют объему собрания сочинений Шекспира. В настоящее время, носимые датчики могут собирать такие разнообразные данные, как частота сердечных сокращений, геолокация и даже уровень глюкозы в крови, определяемый через контактные линзы. В тоже время, социальные сети и медиа-данные — представляет собой окно в социальную жизнь пациентов. Однако данные сами по себе, не являются знанием: понимание различий между такими понятиями как данные, информация и знания, является необходимым для преодоления разрыва между методами больших данных и методами доказательной медициной.

Данные — это необработанные наблюдения, которые сами по себе имеют ограниченную ценность. Необработанные наблюдения (например, уровень гемоглобина A1С = 8,2%), необходимо интерпретировать для получения информации (например, уровень гемоглобина A1С = 8,2%, является значением выше нормального диапазона). Данные и информация относятся к конкретному объекту (к определённому человеку, больнице или стране), тогда как знание включает в себя общие утверждение о мире, которое полезно для понимания, предсказания или принятия решений (например, пациенты с высоким уровнем гемоглобина A1С страдают диабетом и подвержены повышенному риску сердечно-сосудистых заболеваний). Знания могут быть явными (например, утверждения в учебниках или руководствах) или неявными (например, диагностические стратегии опытных врачей) и создаются путем применения аналитических методов к данным и информации. Следовательно, знания — это утверждения, для которых должны быть предоставлены доказательства в виде подтверждающих и проанализированных данных.

Доказательства – являются основой знания.

Доказательная медицина и большие данные представляют собой два очень разных подхода к получению доказательств. В традиционной доказательной медицине выдвигается гипотеза, и данные собираются в ходе исследования, а затем анализируются с использованием частотной биостатистики для подтверждения гипотезы. Классическое рандомизированное контролируемое исследование представляют доказательства по вопросам причинно-следственной связи (например, эффективности лекарств), в то время как другие типы исследований касаются диагностики и прогнозирования (например, диагностические тестовые исследования или оценка клинической вероятности*) или описывают естественное течение болезни (например, когортные исследования). Накоплен богатый опыт в области того, как критически оценивать заявления о доказательствах, вытекающие из этих типов исследований. Большинство исследователей хорошо разбираются в таких понятиях, как систематическая ошибка отбора и знают преимущества рандомизации. Язык и образ мышления, связанные с доказательной медициной, в настоящее время глубоко укоренились во многих поколениях клиницистов и исследователей.

*APACHE II – является примером оценки клинической вероятности.

Практики больших данных не используют такое понятие, как доказательная медицина. Специалисты по науке о данных применяют вычислительные методы, которые основаны на данных, а не на проверке гипотез. Следовательно, эти методы работают с необработанными данными и не включают понимание контекста при выведении доказательств. Таким образом, алгоритм больших данных может обнаружить шаблон в наборе данных, но не сможет определить, является ли полученный результат истинным, ложным или искаженным. В этом заключается самое важное различие между методами доказательно медициной и методами больших данных. Доказательная медицина отдает приоритет контролю искажений (предвзятости, bias) как при сборе данных, так и при анализе, чтобы максимизировать внутреннюю достоверность. В свою очередь, методы больших данных редко включают в себя сбор данных согласно определенному протоколу, эти методы в основном нацелены на максимальный охват и внешнюю достоверность, что соответствует изречению «большое количество данных, лучше качественных данных». Концепция искажения (предвзятости, bias), которая требует применения понимания контекста к анализу, не имеет естественного места в методах, основанных на больших данных. Традиционные исследователи могут счесть эпистемологический подход методов больших данных ересью, но с учетом того, что мировой рынок аналитики больших данных в 2015 году составил 125 миллиардов долларов, клинические исследования не могут быть ограждены от этих методов, потому что методы доказательной медицины и методы больших данных могут усиливать друг друга.

Синергия между 2 способами познания.

**Рис. 1.** Таксономия традиционных исследований и исследований с применением методов больших данных. Клинические исследования включают описательные исследования, целью которых является описание состояния, и аналитические исследования, целью которых является количественная оценка отношений. Синие прямоугольники представляют традиционные исследования. Оранжевые прямоугольники представляют исследования с применением методов больших данных.

Рис.1 показывает, как методы больших данных могут использоваться в таксономии типов исследований, знакомой большинству клинических исследователей. Традиционные описательные исследования, включающие в себя опрос и качественные методы исследований*, могут быть дополнены «дата майнингом» («cбором данных»). Например, определить отношение людей к вакцинации против вируса папилломы человека можно с помощью традиционных методов опроса тысяч респондентов или с помощью автоматического определения положительных и отрицательных настроений в 130 миллионах постах в социальных сетях.

*Интервью и фокус-группы являются примерами качественных методов исследований.

Методы больших данных предлагают расширение исследовательских возможностей, особенно для аналитических исследований, направленных на классификацию, предсказание, моделирование и симуляцию. Алгоритмы классификации могут действовать как диагностические тесты, классифицируя пациента как больного или нет. Например, алгоритм классификации, обученный на 2,1 миллионах твитов, смог распознать депрессию у пользователей Twitter с точностью в 70% и положительной прогностической ценностью в 74%. Предсказательная аналитика, аналогичная той, которая используется для прогнозирования дефолта заемщика по кредиту, может применяться для прогнозирования исходов болезни. Методы моделирования и симуляции, аналогичные тем, которые используются для моделирования погодных условий, могут применяться для моделирования роста рака или инфекции. Что касается определения причинно-следственных связей, рандомизированные исследования все еще остаются золотым стандартом, но традиционные, нерандомизированные исследования и алгоритмы причинно-следственного обучения могут предоставить достаточные доказательства в определённых ситуациях.

Таким образом, специалистам по доказательной медицине было бы полезно работать в партнерстве с специалистами из сферы науки о данных, чтобы использовать доступность разнообразных и больших по объему источников информации, а так же расширить свой набор инструментов с помощью методов машинного обучения, которые могут предложить менее дорогие, более быстрые и более мощные подходы к сбору доказательств, в определенных обстоятельствах. Ученые, занимающиеся большими данными, которые часто не являются работниками сферы здравоохранения, должны сотрудничать с клиническими исследователями, которые обладают необходимыми знаниями о заболеваниях, чтобы скорректировать источники систематической ошибки и распознать ложные сигналы. Доказательной медицине нужна вычислительная мощность больших данных, а большим данным нужна эпистемологическая строгость доказательной медицины. Сочетание этих двух способов познания предлагает лучший путь для расширения и укрепления базы знаний клинической медицины.

Источник: m.vk.com

Два способа познания: большие данные и доказательная медицина.

Комментарии: