Машинное обучение в медицине: большой дайджест за 21

2024-10-29 15:00

Модели машинного обучения и бенчмарки

BioMistral-NLU: модель с повышенным пониманием медицинской терминологии.

Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.

BioMistral-NLU – модель, разработанная на основе BioMistral и настроенная на выполнение инструкций для 7 задач здравоохранения. Чтобы обучить модель, был создан датасет MNLU-Instruct, собранный из 33 открытых источников. Спектр задач MNLU-Instruct: распознавание именованных сущностей, классификация документов, извлечение отношений и анализ тональности текста.

Обучение модели выполнялось методом тонкой настройки с применением унифицированного формата промптов. Для повышения у модели навыка обощения, в набор данных MNLU-Instruct были включены задачи медицинского реферирования, требующие навыков понимания и обобщения текста.

Оценка BioMistral-NLU проводилась на двух бенчмарках: BLUE и BLURB, это совокупно составило 15 наборов данных и 7 разных задач.

Arxiv

MedRegA: интерпретируемая двуязычная MMLM для медицинских задач.

MedRegA – двуязычная (английский и китайский языки) MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.

Для обучения модели был создан большой набор данных MedRegInstruct, включающий три типа задач, ориентированных на работу с областями: идентификация области по тексту, обнаружение области по тексту и генерация отчета с привязкой к областям.

MedRegInstruct включает в себя 8 модальностей (рентген, КТ, МРТ, патология, дерматология, офтальмология и др.) и содержит 550 тыс. комбинаций «изображение-вопрос-ответ» и 240 тыс. изображений с отчетами, аннотированными областями их подробными описаниями.

Архитектура MedRegA основана на модели InternVL 1.2 и состоит из:

визуального энкодера InternViT-6B;
LLM Nous-Hermes-2-Yi-34B;
модуля выравнивания.

Обучение модели проводилось в два этапа:

выравнивание с замороженным энкодером и языковой моделью,
инструктивный файнтюн с замороженными энкодером и модулем выравнивания.

Для улучшения качества генерации в модели реализован механизм Regional CoT (Chain-of-Thought), который позволяет использовать пространственные знания модели.

MedRegA была протестирована на обширном наборе медицинских задач: ответы на вопросы, генерация отчетов,классификация изображений и задачи, ориентированные на работу с областями.

Результаты тестов показали, что MedRegA превосходит существующие модели в большинстве задач, демонстрируя универсальность и интерпретируемость. Модель способна точно идентифицировать и локализовать структуры на медицинских снимках.

Arxiv ?Gihtub ?Model ?Project page

PanDerm: базовая MMLM для дерматологии.

PanDerm – MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.

Датасет обучения был собран из 11 клинических учреждений и включает 4 типа изображений: дерматоскопические, клинические, макрофотографии всего тела (TBP) и гистопатологические.

Архитектура PanDerm состоит из энкодера ViT-large, регрессора и модели учителя на основе CLIP. В процессе обучения использовались две цели: реконструкция скрытого представления и CLIP latent alignment.

PanDerm была протестирована на 28 наборах данных по клиническим задачам: скрининг рака кожи, диагностика неопластических и воспалительных заболеваний, сегментация поражений кожи, мониторинг изменений, прогнозирование метастазов и прогноз.

PanDerm достигла современных результатов во всех задачах, зачастую превосходя существующие модели, даже при использовании 5-10% размеченных данных. Клиническая эффективность модели подтверждена в реальных условиях.

PanDerm превзошла врачей на 10,2% в точности обнаружения меланомы на ранней стадии и повысила точность диагностики многоклассового рака кожи на 11% в условиях совместной работы человека и ИИ.

PanDerm демонстрирует устойчивую производительность независимо от демографических факторов, таких как: расположение на теле, возраст, пол и цвет кожи.

Arxiv

MoRE: MMLM для анализа рентгеновских снимков, ЭКГ и медицинских заключений.

MoRE (Multi-Modal Contrastive Pre-training Framework) – первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.

MoRE использует архитектуру трансформеров для кодирования различных модальностей данных в единое репрезентативное пространство, что повышает точность диагностики и обеспечивает всестороннюю оценку состояния пациентов.

Для обучения модели использовался метод контрастивных потерь, который выравнивает признаки, специфичные для каждой модальности, в единый эмбединг.

Такая совокупность позволяет использовать MoRE для решения задач zero-shot классификации и мультимодального поиска.

Тестирование MoRE на наборах данных Mimic-IV, CheXpert, Edema Severity и PtbXl продемонстрировало превосходство над существующими мультимодальными подходами. MoRE показывает улучшения в улавливании сложных межмодальных отношений и устойчивость в медицинской диагностике.

Arxiv

Фреймворки и методологии

Метод “Обратной диффузия во времени” для обнаружения дипфейков в медицинских изображениях.

Обратная диффузия во времени (Back-in-Time Diffusion, BTD) – метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).

В отличие от существующих методов, BTD не добавляет шум к целевому изображению, а выполняет один шаг обратной диффузии, фокусируясь на выявлении тонких следов манипуляций: искажения на границах смешивания или аномальные шумовые паттерны.

Для оценки метода были созданы 6 наборов данных с КТ- и МРТ-изображениями с использованием различных методов генерации дипфейков (CT-GAN и Stable Diffusion).

Результаты экспериментов показали, что BTD превосходит существующие методы обнаружения дипфейков по всем сценариям, достигая AUC 0,9 для обнаружения ненастоящих опухолей и 0,96 для удаленных опухолей.

Arxiv ?Github ?Dataset

REFLECTOOL: агент для решения клинических задач.

REFLECTOOL – система для решения сложных медицинских задач с использованием специализированных инструментов. Система разработана для преодоления ограничений LLM, которые, несмотря на свой потенциал в медицине, не способны эффективно взаимодействовать с разнообразными данными клинической среды.

REFLECTOOL основан на двухэтапном подходе:

Этап оптимизации: Агент обучается на небольшом наборе данных, используя инструменты для решения задач. Успешные решения сохраняются в долговременной памяти, а опыт использования каждого инструмента накапливается.
Этап вывода: Агент использует долговременную память для поиска похожих успешных случаев и оптимизации выбора инструмента. На этом этапе применяются два метода верификации: итеративная доработка и выбор кандидата.

Для оценки клинических агентов предлагается бенчмарк ClinicalAgent Bench, состоящий из 18 задач, в 5 ключевых аспектах: знания и рассуждения, мультимодальность, численный анализ, понимание данных и достоверность

Эксперименты на ClinicalAgent Bench демонстрируют превосходство REFLECTOOL над чистыми LLM (более чем на 10 пунктов).

REFLECTOOL продемонстрировал высокую адаптивность и эффективность в решении сложных клинических задач. Анализ распределения инструментов в траектории решения задач показывает, что REFLECTOOL позволяет модели использовать инструменты чаще и разнообразнее, чем другие методы.

Arxiv ?Github

GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.

GEMCODE – это конвейер, разработанный специалистами Ивановского государственного химико-технологического университета, для ускоренной разработки действующих веществ лекарственных средств, позволяющий быстро генерировать уникальные и валидные химические структуры коформеров с высокой вероятностью образования сокристаллов и целевыми профилями таблетируемости.

GEMCODE основан на гибридизации генеративных моделей и эволюционной оптимизации, что позволяет проводить более широкий поиск в целевом химическом пространстве.

Для обучения моделей использовался набор данных, состоящий из 1,75 млн. химических структур из базы данных ChEMBL, и специализированный набор данных, содержащий 4227 уникальных структур коформеров.

Для прогнозирования механических свойств сгенерированных молекул была использована библиотека GOLEM и разработанные модели ML.

GEMCODE состоит из четырех основных компонентов:

Генерация кандидатов коформеров: Обученные генеративные модели (GAN, T-VAE, T-CVAE) создают SMILES-представления структур, подобных коформерам.
Прогнозирование механических свойств: Сгенерированные молекулы и терапевтические соединения подаются в обученные ML-модели, которые предсказывают механические свойства потенциальных сокристаллов.
Эволюционная оптимизация: Эволюционный алгоритм в сочетании с ML- моделями улучшает профили таблетируемости сгенерированных коформеров.
Ранжирование по вероятности образования сокристаллов: GNN оценивает и ранжирует пары лекарств и коформеров в соответствии с вероятностью образования сокристаллов.

Для оценки вероятности образования сокристаллов применялась предварительно обученная GNN CCGNet.

Эксперименты показали, что:

T-CVAE генерирует наибольшее количество кандидатов коформеров с целевыми свойствами таблетируемости (5,63%).
Эволюционная оптимизация значительно повышает вероятность того, что коформеры будут обладать желаемыми механическими свойствами.

GEMCODE успешно обнаружил экспериментально подтвержденные коформеры для никорандила, ривароксабана и парацетамола, а также предсказал новые потенциальные коформеры для никорандила.

Arxiv ?Github

VISAGE: синтез видео лапароскопических операций с использованием графов действий

VISAGE (VIdeo Synthesis using Action Graphs for Surgery) – метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.

Графы действий представляют собой структурированное описание органов, хирургических инструментов и их взаимодействий, фиксируя последовательность действий в процедуре.

VISAGE принимает на вход один кадр и генерирует видео последующих действий. Например, по кадру холецистэктомии и последовательности “разрезать”, “пузырный проток”, “клипса” модель генерирует видео, на котором хирург разрезает пузырный проток и накладывает клипсу.

Архитектура VISAGE состоит из энкодера изображения, энкодера графа действий и декодер. Энкодер графа действий преобразует последовательность действий в латентный вектор, который объединяется с закодированным начальным кадром.

Диффузионная модель обучается на задаче денойза, предсказывая шум, добавленный на каждом шаге, и вычитая его для восстановления исходного изображения.

Эксперименты проводились на наборе данных CholecT50, который содержит 50 видео лапароскопической холецистэктомии. Результаты показали, что VISAGE превосходит существующие модели по качеству генерации видео.

Arxiv

MPP: интеграция метаболической информации в LLM для выявления аномалий во временных рядах клинических данных.

MPP (Metabolism Pathway-driven Prompting) – методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.

MPP использует два типа графов: метаболический граф направленного потока метаболитов, и временной граф, отражающий изменения концентраций метаболитов во времени. Эти графы преобразуются в текстовое представление и используются в качестве дополнительных подсказок для LLM. MPP состоит из трех этапов:

Предварительный промпт I : LLM анализирует временной ряд и пытается выявить аномалии, основываясь на своих общих знаниях.
Предварительная промпт II: LLM анализирует метаболический и временной графы и извлекает контекстуальную информацию о взаимосвязях между метаболитами.
Основной промпт: LLM объединяет информацию из предыдущих этапов и дает более точную и контекстно-зависимую оценку наличия аномалий.

Эффективность MPP была проверена на 2 реальных наборах данных (Steroid-M и Steroid-F), содержащих продольные профили стероидов у спортсменов. Для сравнения были использованы LLaMA 2-7B, Mistral-7B, Falcon-7B и GPT2 в 3 режимах (zero-shot, in-context learning и chain-of-thought).

Результаты показали, что MPP значительно улучшает точность выявления аномалий по сравнению с другими методами. Это связано с тем, что MPP позволяет LLM лучше понимать контекст и взаимосвязи между метаболитами. t-SNE визуализация показала, что MPP формирует более четкие кластеры в пространстве вложений, что свидетельствует о более структурированном и осмысленном представлении данных.

Arxiv

SleepCoT: алгоритм для персонализированного управления здоровьем сна.

SleepCoT – алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.

Особенность SleepCoT заключается в способности генерировать персональные рекомендации по здоровью сна, отвечать на уточняющие вопросы пользователей и предоставлять информацию по узкоспециализированным вопросам.

В основе архитектуры SleepCoT лежат четыре ключевых направления: синтез данных, обработка “длинных” знаний, персонализированные ответы на вопросы и генерация персонализированных рекомендаций.

Для синтеза данных используется модель GPT-4o, которая создаёт синтетические наборы данных, имитирующие реальные сценарии, связанные со здоровьем сна.

SleepCoT использует CoT-дистилляцию для обхода ограниченной способности SLM в обработке редких, узкоспециализированных запросов, перенимая знания из больших моделей.

Тестирование модели проводилось с использованием 100 смоделированных отчетов о сне и 1000 вопросов, специфичных для диагностики сна.

Результаты показали, что SleepCoT достигает производительности, сопоставимой с большими LLM, сохраняя эффективность для развертывания в реальных условиях.

Arxiv

ALCD: Противодействие галлюцинациям в LLM.

Метод ALternate Contrastive Decoding (ALCD) основан на разделении функций идентификации и классификации медицинских сущностей. Для этого используются три модели LLM: нормальная, идентификационная и классификационная.

Во время инференса ALCD попеременно усиливает способность к классификации или идентификации, сравнивая логиты выходных распределений моделей. Для динамической настройки масштаба и области контрастных токенов используется адаптивная стратегия ограничений, которая основана на мере согласованности между моделями и уровнем их уверенности.

Эксперименты, проведенные на 6 различных задачах MIE с использованием двух базовых LLM (ChatGLM-6B и Qwen-7B-Chat), продемонстрировали значительное преимущество ALCD по сравнению с 8 существующими методами декодирования.

ALCD эффективно устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации, что подтверждается результатами тестирования и примерами из набора данных CHIP-MDCFNPC.

Arxiv

Медицинские LLM-приложения

LMLPA: инструмент для лингвистической оценки личности LLM.

LMLPA (Language Model Linguistic Personality Assessment)- инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.

В отличие от традиционных личностных опросников, LMLPA использует открытые вопросы и AI-агента для оценки ответов. Это позволяет избежать искажений, связанных с порядком вариантов ответов, к которым чувствительны LLM.

LMLPA адаптирует вопросы опросника Big Five Inventory (BFI), переводя их в открытую форму и корректируя формулировки, чтобы они были применимы к особенностям функционирования LLM.

AI-агент, основанный на GPT-4-Turbo, оценивает ответы LLM, преобразуя текст в числовые значения, соответствующие пяти факторам личности: открытость опыту, добросовестность, экстраверсия, уживчивость и нейротизм.

Тестирование системы LMLPA показало высокую надежность и валидность. Результаты оценки личности LLM с помощью LMLPA согласуются с заданными личностными профилями, хотя LLM стремятся избегать крайних значений.

Arxiv

Cистема обратной связи для обучения медицинским процедурам.

Система основана на анализе данных с различных источников: видеозаписи с нескольких камер (статических и носимых), показания инерциальных датчиков (IMU) с умных часов, а также аудиозаписей и текстовых форм обратной связи от мед.экспертов.

Для синхронизации видеоматериалов используется звуковой сигнал (хлопки в ладоши), а для маркировки этапов процедуры разработаны подробные инструкции.

В основе системы лежит метод классификации видео, позволяющий распознавать действия, выполняемые во время процедур. Для этого используются модели S3D, которые обучаются на размеченных видеоданных.

Обратная связь для студентов генерируется с помощью LLM, обученной на данных о процедурах и экспертных оценках. LLM анализирует результаты классификации видео и предоставляет информацию о правильности выполнения каждого этапа, включая порядок действий, пропущенные шаги и время ожидания.

Arxiv

Исследования и обзоры

Storytelling XAI: повышение доверия к ИИ в медицине.

Авторы исследования рассматривают применение комбинации методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.

Storytelling XAI использует многозадачное обучение с дистилляцией знаний, позволяя единой модели выполнять различные задачи: обнаружение аномалий на рентгеновских снимках грудной клетки, сегментация легких и генерация медицинских заключений.

Обучение модели происходит поэтапно: сначала три модели-учителя обучаются для каждой задачи, а затем целевая модель (более простая) перенимает знания от каждого учителя через дистилляцию знаний. Такой подход позволяет целевой модели уловить взаимосвязь между различными задачами и повышает ее навык интерпретируемости результатов.

Для интерпретации результатов применяются модельно-агностические методы (LIME) и модельно-специфические методы (GradCAM и визуализация карт внимания).

В результате Storytelling XAI предоставляет медицинским специалистам концептуальное понимание работы модели на понятном языке, а специалистам по ML – техническую интерпретацию.

Arxiv

Оценка объяснимого ИИ (XAI) с помощью LLM.

Исследования с участием людей для оценки инструментов объяснимого ИИ (XAI) являются дорогостоящими, трудоемкими и трудно масштабируемыми. В обзоре исследуется потенциал LLM для воспроизведения роли участников исследований, чтобы упростить и ускорить процесс оценки XAI.

Авторы воспроизвели исследование, сравнивающее контрфактические и каузальные объяснения с точки зрения их полезности и эффективности в передаче информации от ИИ-систем.

Вместо людей в исследовании использовались 7 LLM (Llama 3, Qwen 2, Mistral 7B, Mistral Nemo и GPT-4o Mini) в различных экспериментальных условиях: использование памяти LLM и исследование влияния вариативности инференса LLM на соответствие ответам людей.

Результаты экспериментов показали, что:

LLM могут воспроизвести большинство выводов исходного исследования.
Разные LLM демонстрируют разную степень соответствия результатам, полученным с участием людей.
Экспериментальные факторы: использование памяти LLM и вариативность вывода, влияют на степень соответствия.

Эти результаты свидетельствуют о том, что LLM могут обеспечить масштабируемый и экономически эффективный способ упрощения качественной оценки XAI.

Arxiv

Выявление и устранение предвзятости в LLM для клинических решений.

В статье исследуется методика “Контрфактические вариации пациента” (CPV), основанная на наборе данных JAMA Clinical Challenge, для оценки предвзятости LLM в сложных клинических случаях.

CPV подразумевает создание вариаций клинических случаев, изменяя пол и этническую принадлежность пациента, сохраняя при этом неизменными остальные медицинские данные.

Это позволяет оценить, как изменение демографических характеристик влияет на решения модели. Для исследования были выбраны восемь LLM, включая GPT-3.5, GPT-4 и Llama3.

Предвзятость оценивалась по ответам модели на вопросы с множественным выбором (MCQ) и по качеству объяснений этих ответов (XPL). В качестве методов устранения предвзятости изучались разработка промптов и возможности файнтюна.

Результаты:

LLM демонстрируют предвзятость в отношении пола и этнической принадлежности в результатах и в обосновании решений.
Файнтюн может уменьшить предвзятость, но также может стать источником новых видов предвзятости.
Разработка промптов недостаточна для полного устранения предвзятости.
Предвзятость в отношении пола в представлениях LLM варьируется в зависимости от медицинской специальности.

Важным выводом является то, что правильный ответ на MCQ не гарантирует отсутствия предвзятости в рассуждениях модели. Это подчеркивает важность оценки как MCQ, так и XPL для комплексного понимания проблемы предвзятости LLM в клинических приложениях.

Источник: uproger.com

Машинное обучение в медицине: большой дайджест за 21 – 27 октября 2024 г.

Комментарии: