Сравнение ответов врача и чат-бота на вопросы пациентов

2023-04-29 14:58

Ключевые моменты

Вопрос: Может ли чат-бот-помощник с искусственным интеллектом предоставлять ответы на вопросы пациентов, сравнимые по качеству и сочувствию с теми, которые написаны врачами?

Результаты В этом перекрестном исследовании 195 случайно выбранных вопросов пациентов с форума в социальных сетях команда лицензированных медицинских работников сравнила ответы врача и чат-бота на вопросы пациентов, заданные публично на общедоступном форуме в социальных сетях. Ответы чат-бота были предпочтительнее ответов врача и оценены значительно выше как по качеству, так и по эмпатии.

Это означает, что эти результаты предполагают, что помощники с искусственным интеллектом могут помочь в составлении ответов на вопросы пациентов.

Короткое описание

Важность Быстрое распространение виртуального медицинского обслуживания вызвало всплеск сообщений от пациентов, сопровождающийся увеличением объема работы и эмоциональным выгоранием среди медицинских работников. Ассистенты с искусственным интеллектом (ИИ) потенциально могли бы помочь в составлении ответов на вопросы пациентов путем составления ответов, которые могли бы быть рассмотрены врачами.

Цель - оценить способность помощника чат-бота с искусственным интеллектом (ChatGPT), выпущенного в ноябре 2022 года, предоставлять качественные и чуткие ответы на вопросы пациентов.

Дизайн, постановка и участники В этом перекрестном исследовании была использована общедоступная и неидентифицируемая база данных вопросов с общедоступного форума социальных сетей (r / AskDocs от Reddit) для случайного отбора 195 сообщений с октября 2022 года, в которых проверенный врач ответил на общедоступный вопрос. Ответы чат-бота были сгенерированы путем ввода исходного вопроса в новую сессию (без предварительных вопросов, которые были заданы в ходе сессии) 22 и 23 декабря 2022 года. Первоначальный вопрос, а также анонимизированные и случайным образом упорядоченные ответы врача и чат-бота были оценены в трех экземплярах командой лицензированных медицинских работников. Оценщики выбирали, “какой ответ был лучше”, и оценивали как “качество предоставленной информации” (очень плохое, некачественное, приемлемое, хорошее или очень хорошее), так и “проявленное сочувствие или отношение к пациенту” (не чуткое, слегка чуткое, умеренно чуткое, чуткий и очень чуткий). Средние результаты оценивались по шкале от 1 до 5 и сравнивались между чат-ботом и врачами.

Результаты Из 195 вопросов и ответов оценщики предпочли ответы чат-бота ответам врача в 78,6% (95% ДИ, 75,0%-81,8%) из 585 оценок. Средний показатель (IQR) ответов врача был значительно короче, чем ответов чат-бота (52 [17-62] слова против 211 [168-245] слов; t = 25,4; P < 0,001). Ответы чат-бота были оценены как значительно более качественные, чем ответы врача (t = 13,3; P < 0,001). Например, доля ответов, оцененных как хорошее или очень хорошее качество (>= 4), была выше у чат-ботов, чем у врачей (чат-бот: 78,5%, 95% ДИ, 72,3%-84,1%; врачи: 22,1%, 95% ДИ, 16,4%-28,2%;). Это в 3,6 раза увеличило распространенность хороших или очень качественных ответов для чат-бота. Ответы чат-бота также были оценены как значительно более чуткие, чем ответы врача (t = 18,9; P < 0,001). Доля ответов, оцененных как эмпатичные или очень чуткие (>=4), была выше для чат-бота, чем для врачей (врачи: 4,6%, 95% ДИ, 2,1%-7,7%; чат-бот: 45,1%, 95% ДИ, 38,5%-51,8%; врачи: 4,6%, 95% ДИ, 2,1%-7,7%). Это составило в 9,8 раза более высокую распространенность эмпатичных или очень чутких ответов у чат-бота.

Выводы В этом перекрестном исследовании чат-бот генерировал качественные и чуткие ответы на вопросы пациентов, заданные на онлайн-форуме. Дальнейшее изучение этой технологии оправдано в клинических условиях, например, при использовании чат-бота для составления ответов, которые врачи затем могли бы редактировать. Рандомизированные исследования могли бы дополнительно оценить, может ли использование ассистентов с искусственным интеллектом улучшить реакцию, снизить эмоциональное выгорание врача и улучшить результаты лечения пациентов.

Вступление

Пандемия COVID-19 ускорила внедрение виртуального медицинского обслуживания1, что сопровождалось увеличением количества электронных сообщений от пациентов в 1,6 раза, при этом каждое сообщение добавляло 2,3 минуты работы в электронную медицинскую карту и увеличивало время работы в нерабочее время.2 Дополнительный объем сообщений предсказывает усиление эмоционального выгорания у клиницистов3: 62% врачей, что является рекордно высоким показателем, сообщили по крайней мере об одном симптоме эмоционального выгорания.Еще 4 сообщения также повышают вероятность того, что сообщения пациентов останутся без ответа или получат бесполезные ответы.

Некоторые сообщения пациентов представляют собой незапрашиваемые вопросы, требующие медицинской консультации, на ответы на которые также требуется больше навыков и времени, чем на обычные сообщения (например, запись на прием, доступ к результатам анализов). Современные подходы к снижению нагрузки на рассылку сообщений включают ограничение уведомлений, выставление счетов за ответы или делегирование ответов менее подготовленному вспомогательному персоналу.5 К сожалению, эти стратегии могут ограничить доступ к высококачественному медицинскому обслуживанию. Например, когда пациентам сказали, что им могут выставить счет за обмен сообщениями, они отправили меньше сообщений и обменялись более короткими сообщениями с врачами.6 Помощники с искусственным интеллектом (ИИ) - это неизученный ресурс для решения проблемы нехватки сообщений. В то время как некоторые запатентованные помощники с искусственным интеллектом обещают7, некоторые общедоступные инструменты не смогли распознать даже базовые концепции здравоохранения.8,9

ChatGPT10 представляет собой новое поколение технологий искусственного интеллекта, основанных на достижениях в области больших языковых моделей.11 ChatGPT охватил 100 миллионов пользователей в течение 64 дней с момента его выпуска 30 ноября 2022 года и получил широкое признание за свою способность писать тексты почти человеческого качества по широкому кругу тем.12 Система не была разработана для оказания медицинской помощи, и ее способность помогать в решении вопросов пациентов не изучена.13 Мы протестировали способность ChatGPT давать высококачественные и чуткие ответы на вопросы пациентов о медицинском обслуживании, путем сравнения ответов чат-бота с ответами врачей на вопросы, размещенные на общедоступном форуме в социальных сетях.

Методы

Изучение вопросов пациентов из систем здравоохранения с помощью чат-бота было невозможно в этом перекрестном исследовании, поскольку в то время искусственный интеллект не соответствовал положениям Закона о переносимости медицинского страхования и подотчетности 1996 года (HIPAA). Деидентификация сообщений пациентов путем удаления уникальной информации, чтобы сделать их совместимыми с HIPAA, может изменить содержание настолько, чтобы изменить вопросы пациентов и повлиять на ответы чат-бота. Кроме того, открытая наука требует общедоступных данных, позволяющих исследователям опираться на предыдущие исследования и подвергать их критике.14 Наконец, сообщения СМИ свидетельствуют о том, что врачи уже внедряют чат-ботов в свою практику без каких-либо доказательств. По соображениям необходимости, практичности и для расширения возможностей разработки быстро доступной базы данных вопросов пациентов, которой можно делиться, мы собрали вопросы общественности и пациентов, а также ответы врачей, размещенные на онлайн-форуме социальных сетей Reddit r/AskDocs.15

Онлайн-форум r /AskDocs - это субреддит с примерно 474 000 участников, где пользователи могут публиковать медицинские вопросы, а проверенные добровольцы-медработники присылают ответы.15 Хотя ответить на вопрос может любой желающий, модераторы субреддита проверяют учетные данные медицинских работников, а в ответах рядом с их ответом отображается уровень учетных данных респондента (например, врача) и помечается вопрос, когда на него уже дан ответ. Справочная информация и примеры использования данных на этом онлайн-форуме описаны Ноблсом и др.16

Все анализы соответствовали правилам и условиям Reddit17 и были признаны программой защиты исследований человека Калифорнийского университета в Сан-Диего исключенными из программы. Информированное согласие не требовалось, поскольку данные были общедоступными и не содержали идентифицирующей информации (45 CFR §46). Прямые цитаты из сообщений были обобщены для защиты личности пациента.Для получения ответов чат-бота было использовано 18 фактических цитат.

Целевой выборкой нашего исследования было 200 человек, предполагая, что 80%-ная вероятность обнаружения разницы в 10 процентных пунктов между ответами врача и чат-бота (45% против 55%). Аналитическая выборка в конечном итоге содержала 195 случайно выбранных обменов мнениями, то есть уникальный вопрос участника и уникальный ответ врача, в течение октября 2022 года. Исходный вопрос, включая название и текст, был сохранен для анализа, а ответ врача был сохранен в качестве контрольного ответа. Были изучены только ответы врачей, поскольку мы ожидали, что ответы врачей, как правило, превосходят ответы других медицинских работников или непрофессионалов. Когда врач отвечал более одного раза, мы учитывали только первый ответ, хотя результаты были почти идентичными независимо от нашего решения исключить или включить последующие ответы врача (см. таблицу 1 в приложении 1). 22 и 23 декабря 2022 года оригинальный полный текст вопроса был добавлен в новую сессию чат-бота, в ходе которой не было задано предыдущих вопросов, которые могли повлиять на результаты (версия GPT-3.5, OpenAI), и ответ чат-бота был сохранен.

Первоначальный вопрос, ответ врача и ответ чат-бота были рассмотрены тремя членами команды лицензированных медицинских работников, работающих в области педиатрии, гериатрии, внутренних болезней, онкологии, инфекционных заболеваний и профилактической медицины (J.B.K., D.J.F., A.M.G., M.H., D.M.S.). Экспертам по оценке был показан весь вопрос пациента, ответ врача и ответ чат-бота. Ответы были упорядочены случайным образом, лишены раскрывающей информации (например, таких утверждений, как “Я искусственный интеллект”) и помечены как "ответ 1" или "ответ 2" для слепых оценщиков в отношении личности автора. Экспертам по оценке было поручено прочитать весь вопрос пациента и оба ответа, прежде чем отвечать на вопросы о взаимодействии. Сначала оценщиков спросили, “какой ответ [был] лучше” (т.е. ответ 1 или ответ 2). Затем, используя шкалы Лайкерта, оценщики оценивали как “качество предоставленной информации” (очень плохое, некачественное, приемлемое, хорошее или очень хорошее), так и “проявленное сочувствие или отношение к пациенту” (не чуткое, слегка чуткое, умеренно чуткое, сопереживающее и очень чуткое) ответов. Варианты ответов были переведены по шкале от 1 до 5, где более высокие значения указывали на большее качество или сопереживание.

Мы полагались на стратегию подсчета очков толпой (или ансамблем)19, в которой баллы были усреднены между оценщиками по каждому изученному обмену. Этот метод используется, когда в изучаемом результате нет достоверных данных, а сами оцениваемые результаты по своей сути субъективны (например, судейство по фигурному катанию, гранты Национального института здравоохранения, открытие концепции). В результате средний балл отражает консенсус оценщиков, а разногласия (или присущая им двусмысленность, неопределенность) между оценщиками отражаются в расхождении баллов (например, КИС частично зависит от согласия оценщиков)20.

Мы сравнили количество слов в ответах врача и чат-бота и сообщили о проценте ответов, для которых чат-бот был предпочтительнее. Используя двухфакторные t-тесты, мы сравнили средние показатели качества и эмпатии ответов врачей с ответами чат-ботов. Кроме того, мы сравнили частоту ответов выше или ниже важных пороговых значений, таких как "недостаточно", и рассчитали коэффициенты распространенности, сравнивая ответы чат-бота с ответами врача. Используемый порог значимости составлял P < 0,05. Все статистические анализы проводились в программном обеспечении R statistical версии 4.0.2 (R Project for Statistical Computing).

Мы также сообщили о корреляции Пирсона между показателями качества и эмпатии. Предполагая, что вопросы пациентов в клинике могут быть длиннее, чем те, что размещены на онлайн-форуме, мы также оценили, в какой степени включение данных в более длинные ответы, созданные врачами (включая ответы, длина которых превышает медиану или 75-й процентиль), изменило предпочтения оценщика и оценки качества или эмпатии по сравнению с ответами чат-бота.

Результаты

Выборка содержала 195 случайно выбранных реплик с уникальным вопросом участника-пациента и уникальным ответом врача. Средняя длина вопросов пациента (IQR) в словах составила в среднем 180 (94-223). Средний показатель (IQR) ответов врача был значительно короче, чем ответов чат-бота (52 [17-62] слова против 211 [168-245] слов; t = 25,4; P < 0,001). В общей сложности 182 (94%) из этих обменов состояли из одного сообщения и только одного ответа от врача. Остальные 13 (6%) обменов состояли из одного сообщения, но с двумя отдельными ответами врача. Вторые ответы оказались случайными (например, дополнительный ответ был дан, когда на сообщение уже был дан ответ) (таблица 1 в приложении 1).

Оценщики предпочли ответ чат-бота ответам врача в 78,6% (95% ДИ, 75,0%-81,8%) из 585 оценок. Краткое изложение примеров вопросов и соответствующие ответы врача и чат-бота приведены в таблице.

Оценщики также оценили ответы чат-бота значительно более качественно, чем ответы врача (t = 13,3; P < 0,001). Средняя оценка ответов чат-ботов была выше, чем хорошая (4,13; 95% ДИ 4,05-4,20), в то время как в среднем ответы врачей были оценены на 21% ниже, что соответствует приемлемому ответу (3,26; 95% ДИ 3,15-3,37) (рисунок). Доля ответов, качество которых было оценено ниже приемлемого (<3), была выше для ответов врачей, чем для чат-ботов (врачи: 27,2%; 95% ДИ 21,0%-33,3%; чат-бот: 2,6%; 95% ДИ 0,5%-5,1%). Это в 10,6 раза увеличило распространенность ответов менее приемлемого качества для врачей. И наоборот, доля ответов, оцененных как хорошее или очень хорошее качество, была выше у чат-ботов, чем у врачей (врачи: 22,1%; 95% ДИ 16,4%-28,2%; чат-бот: 78,5%; 95% ДИ 72,3%-84,1%). Это в 3,6 раза увеличило распространенность хороших или очень хороших ответов для чат-бота.

Ответы чат-бота (3,65; 95% ДИ 3,55-3,75) были оценены как значительно более эмпатичные (t = 18,9; P < 0,001), чем ответы врача (2,15; 95% ДИ 2,03-2,27). В частности, ответы врача были на 41% менее чуткими, чем ответы чат-бота, что обычно приравнивалось к тому, что ответы врача были слегка чуткими, а чат-бота - чутким. Кроме того, доля ответов, оцененных как менее чем слегка эмпатичные (<3), была выше у врачей, чем у чат-ботов (врачи: 80,5%; 95% ДИ 74,4%-85,6%; чат-бот: 14,9%; 95% ДИ 9,7-20,0). Это составило в 5,4 раза более высокую распространенность менее чем незначительных проявлений эмпатии у врачей. Доля ответов, оцененных как эмпатичные или очень чуткие, была выше для чат-бота, чем для врачей (врачи: 4,6%; 95% ДИ 2,1%-7,7%; чат-бот: 45,1%; 95% ДИ 38,5%-51,8%). Это составило в 9,8 раза более высокую распространенность эмпатичных или очень чутких ответов у чат-бота.

Коэффициент корреляции Пирсона между показателями качества и эмпатии, составленными врачами, составил r = 0,59. Коэффициент корреляции между показателями качества и эмпатии, составленными чат-ботом, составил r = 0,32. Анализ чувствительности показал, что более длительные ответы врача были предпочтительнее при более высоких показателях, более высокие оценки за эмпатию и качество, но оставались значительно ниже оценок чат-бота (рисунок в приложении 1). Например, среди подгруппы ответов врачей, длина которых превышает медиану, оценщики предпочли ответ чат-бота врачам в 71,4% (95% ДИ, 66,3%-76,9%) оценок и предпочли ответ чат-бота ответам врачей в верхнем 75-м процентиле длины 62,0% (95% ДИ, 54,0-69,3) оценок.

Обсуждение

В этом перекрестном исследовании в контексте вопросов пациентов на общедоступном онлайн-форуме ответы чат-ботов были длиннее, чем ответы врачей, и специалисты по оценке медицинских работников предпочли ответы, сгенерированные чат-ботами, ответам врачей 4 к 1. Кроме того, ответы чат-бота были оценены значительно выше как по качеству, так и по эмпатии, даже по сравнению с самыми длинными ответами, написанными врачом.

Мы не знаем, как чат-боты будут отвечать на вопросы пациентов в клинических условиях, однако настоящее исследование должно мотивировать исследования по внедрению помощников с искусственным интеллектом для обмена сообщениями, несмотря на то, что ранее это упускалось из виду.5 Например, как было протестировано, чат-боты могут помогать врачам при обмене сообщениями с пациентами, составляя сообщение на основе запроса пациента для редактирования врачами или вспомогательным персоналом. Этот подход вписывается в текущие стратегии реагирования на сообщения, где команды врачей часто полагаются на готовые ответы или просят вспомогательный персонал подготовить черновики ответов. Такой подход с использованием искусственного интеллекта может повысить неиспользованную производительность, так что клинический персонал сможет использовать экономию времени для более сложных задач, что приведет к более последовательным ответам и поможет персоналу улучшить свои общие коммуникативные навыки, просматривая и модифицируя проекты, написанные с помощью искусственного интеллекта.

В дополнение к улучшению рабочего процесса инвестиции в обмен сообщениями с помощью искусственного интеллекта могут повлиять на результаты лечения пациентов. Если на вопросы большего числа пациентов будут отвечать быстро, с сочувствием и на высоком уровне, это может сократить количество ненужных посещений клиники, высвободив ресурсы для тех, кто в них нуждается.21 Более того, обмен сообщениями является важнейшим ресурсом для обеспечения равенства между пациентами, когда люди, которые имеют ограничения в передвижении, работают нерегулярно или опасаются медицинских счетов, потенциально с большей вероятностью обратятся к обмену сообщениями.22 Высококачественные ответы также могут улучшить результаты лечения пациентов.23 У некоторых пациентов отзывчивые сообщения могут в совокупности влиять на поведение в отношении здоровья, включая приверженность к лечению, комплаенс (например, диета)., и меньше пропущенных встреч. Оценка технологий искусственного интеллекта-ассистента в контексте рандомизированных клинических испытаний будет иметь важное значение для их внедрения, включая изучение результатов для клинического персонала, таких как эмоциональное выгорание врача, удовлетворенность работой и вовлеченность.

Ограничения

Основным ограничением исследования было использование обмена вопросами и ответами на онлайн-форуме. Такие сообщения могут не отражать типичные вопросы пациента к врачу. Например, мы изучали ответы на вопросы только изолированно, в то время как настоящие врачи могут формировать ответы на основе установленных отношений между пациентом и врачом. Мы не знаем, в какой степени ответы врача включают такой уровень персонализации, и мы не оценивали способность чат-бота предоставлять аналогичные сведения, извлеченные из электронной медицинской карты. Кроме того, хотя мы демонстрируем общее качество ответов чат-бота, мы не оценивали, как помощник с искусственным интеллектом улучшит качество ответов врачей на вопросы пациентов. Добавленная стоимость будет во многом отличаться в зависимости от больниц, специальностей и врачей-клиницистов, поскольку она дополняет, а не заменяет существующие процессы оказания медицинской помощи на основе сообщений. Другим ограничением является то, что общеклинические вопросы - это лишь одна из причин, по которой пациенты обращаются к своим врачам. Другими распространенными сообщениями являются просьбы о более раннем приеме, повторном приеме лекарств, вопросы об их конкретных результатах анализов, личных планах лечения и прогнозе. Дополнительные ограничения этого исследования включают в себя то, что сводные показатели качества и эмпатии не были экспериментально протестированы или валидированы; оценщики этого исследования, несмотря на то, что они были слепы к источнику ответа и любым первоначальным результатам, также были соавторами, что могло привести к искажению их оценок; дополнительная длина ответов чат-бота могла быть ошибочно указана ассоциируется с большей эмпатией; и оценщики не оценивали ответы чат-бота на предмет точности или сфабрикованности информации.

Использование общедоступной базы данных гарантирует, что настоящее исследование может быть воспроизведено, расширено и валидировано, особенно по мере появления новых продуктов искусственного интеллекта. Например, мы рассмотрели только одномерные показатели качества реагирования и эмпатии, но дальнейшие исследования могут прояснить субразмерности качества (например, отзывчивость или точность) и эмпатии (например, сообщение о понимании пациента или выражение сожаления о результатах лечения пациента). Кроме того, мы не оценивали оценки пациентов, чьи оценки эмпатии могут отличаться от оценок наших медицинских работников и у которых могут быть побочные реакции на ответы, генерируемые помощником искусственного интеллекта. Наконец, использование помощников с искусственным интеллектом в здравоохранении создает ряд этических проблем24, которые необходимо решить до внедрения этих технологий, включая необходимость проверки человеком контента, созданного с помощью искусственного интеллекта, на предмет точности и потенциальной ложной или сфабрикованной информации.

Выводы

Хотя это перекрестное исследование продемонстрировало многообещающие результаты в использовании помощников с искусственным интеллектом для ответов на вопросы пациентов, важно отметить, что необходимы дальнейшие исследования, прежде чем можно будет сделать какие-либо окончательные выводы относительно их потенциального эффекта в клинических условиях. Несмотря на ограничения этого исследования и частое чрезмерное использование новых технологий,25,26 изучение добавления помощников с искусственным интеллектом в рабочие процессы обмена сообщениями с пациентами обещает улучшить результаты как для врача, так и для пациентов.

Источник: jamanetwork.com

Сравнение ответов врача и чат-бота на вопросы пациентов

Комментарии: