ChatGPT сдал медицинский экзамен, но не может работать врачом

2025-11-30 11:21

ИИ проекты, искусственный интеллект в медицине

Приходишь к врачу, а он тебе цитирует новейшие и лучшие учебники, помнит наизусть тысячи редких синдромов, сдает экзамены на высший балл, но стоит спросить: «Доктор, у меня вот тут колет, а еще я вчера котлетку ел на ночь», — его начинает клинить. По большому счету так обстоят дела с большими языковыми моделями, когда речь идет о реальной медицине.

Проблема в том, что обычно их тестируют на стандартных экзаменах вроде USMLE (это американская лицензия для врачей). Там нужно выбрать ответ из четырех вариантов. И модели тут чудо как хороши и ставят рекорд за рекордом. Но реальная клиника — это ж не викторина тщеславия, а бесконечная работа с неопределенностью. Поэтому исследователи в новой работе проверили алгоритмы «по-честному». Они собрали свой бенчмарк из 750 задач. И это изящно сделано, надо признать.

Там не нужно ставить диагноз с нуля. Вам, то есть нейронке, дают сценарий (например, «пациент с болью в груди») и гипотезу («это инфаркт»). А затем подкидывают новый факт («на ЭКГ все чисто») и спрашивают: как этот факт меняет вероятность гипотезы? Вариантов пять: от «гораздо менее вероятно»(-2) до «гораздо более вероятно» (+2). И вот так сравнили 10 топовых моделей (включая o1, GPT-4o, Claude 3.5, DeepSeek R1) с тем, как справлялись люди: 1070 студентов-медиков, 193 ординатора и 300 практикующих врачей.

Результаты получились, прямо скажем, отрезвляющие. Ни одна модель не смогла дотянуться до уровня опытных врачей. Лучший результат показала OpenAI o3 (67,8%), за ней GPT-4o, а вот специализированные «рассуждающие» модели вроде o1-preview и DeepSeek R1 неожиданно провалились, набрав меньше баллов. Google Gemini 2.5 вообще оказался в хвосте (3 версия еще не вышла тогда).

Любопытно, что так называемые «рассуждающие» модели (строящие цепочки рассуждений при обработке вашего сообщения) здесь вроде бы должны справляться лучше, ведь тут сложная логика. Но у исследователей получилось наоборот: эти модели страдали от самоуверенности. Там, где живой врач осторожно ставит +1 («ну, это немного повышает вероятность») или 0 («этот факт вообще ни о чем не говорит»), «рассуждающие» модели рубят с плеча и выбирают крайние значения +2 или -2. Они почти не используют ноль.

Получается, как полагают авторы, что попытка заставить модель рассуждать шаг за шагом в условиях нехватки данных приводит к тому, что она сама себя убеждает в радикальных выводах. То, что называется «иллюзией компетентности»: модель строит логичную цепочку на зыбком фундаменте и приходит к железобетонному (и неверному) заключению.

Конечно, к самому методу бенчмарка можно тоже придраться. Ведь он оценивает ответы по совпадению с мнением группы экспертов. Это значит, что если модель (или гениальный врач) увидит неочевидную связь, которую пропустило большинство коллег, тест засчитает это как ошибку.

Но пока что авторы приходят в целом к очевидному для многих, кто понимает, как работают нейронки, выводу: «знать медицину» и «мыслить как врач» — это две большие разницы. И полагаться на большие языковые модели в медицинских вопросах, как на врача, как минимум пока рано. И, пожалуй, особенно на врача, который идет за ответами на свои вопросы к ChatGPT, «Чтобы только спросить».

Science

Источник: vk.com



		ChatGPT сдал медицинский экзамен, но не может работать врачом
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-11-30 11:21 ИИ проекты, искусственный интеллект в медицине Приходишь к врачу, а он тебе цитирует новейшие и лучшие учебники, помнит наизусть тысячи редких синдромов, сдает экзамены на высший балл, но стоит спросить: «Доктор, у меня вот тут колет, а еще я вчера котлетку ел на ночь», — его начинает клинить. По большому счету так обстоят дела с большими языковыми моделями, когда речь идет о реальной медицине. Проблема в том, что обычно их тестируют на стандартных экзаменах вроде USMLE (это американская лицензия для врачей). Там нужно выбрать ответ из четырех вариантов. И модели тут чудо как хороши и ставят рекорд за рекордом. Но реальная клиника — это ж не викторина тщеславия, а бесконечная работа с неопределенностью. Поэтому исследователи в новой работе проверили алгоритмы «по-честному». Они собрали свой бенчмарк из 750 задач. И это изящно сделано, надо признать. Там не нужно ставить диагноз с нуля. Вам, то есть нейронке, дают сценарий (например, «пациент с болью в груди») и гипотезу («это инфаркт»). А затем подкидывают новый факт («на ЭКГ все чисто») и спрашивают: как этот факт меняет вероятность гипотезы? Вариантов пять: от «гораздо менее вероятно»(-2) до «гораздо более вероятно» (+2). И вот так сравнили 10 топовых моделей (включая o1, GPT-4o, Claude 3.5, DeepSeek R1) с тем, как справлялись люди: 1070 студентов-медиков, 193 ординатора и 300 практикующих врачей. Результаты получились, прямо скажем, отрезвляющие. Ни одна модель не смогла дотянуться до уровня опытных врачей. Лучший результат показала OpenAI o3 (67,8%), за ней GPT-4o, а вот специализированные «рассуждающие» модели вроде o1-preview и DeepSeek R1 неожиданно провалились, набрав меньше баллов. Google Gemini 2.5 вообще оказался в хвосте (3 версия еще не вышла тогда). Любопытно, что так называемые «рассуждающие» модели (строящие цепочки рассуждений при обработке вашего сообщения) здесь вроде бы должны справляться лучше, ведь тут сложная логика. Но у исследователей получилось наоборот: эти модели страдали от самоуверенности. Там, где живой врач осторожно ставит +1 («ну, это немного повышает вероятность») или 0 («этот факт вообще ни о чем не говорит»), «рассуждающие» модели рубят с плеча и выбирают крайние значения +2 или -2. Они почти не используют ноль. Получается, как полагают авторы, что попытка заставить модель рассуждать шаг за шагом в условиях нехватки данных приводит к тому, что она сама себя убеждает в радикальных выводах. То, что называется «иллюзией компетентности»: модель строит логичную цепочку на зыбком фундаменте и приходит к железобетонному (и неверному) заключению. Конечно, к самому методу бенчмарка можно тоже придраться. Ведь он оценивает ответы по совпадению с мнением группы экспертов. Это значит, что если модель (или гениальный врач) увидит неочевидную связь, которую пропустило большинство коллег, тест засчитает это как ошибку. Но пока что авторы приходят в целом к очевидному для многих, кто понимает, как работают нейронки, выводу: «знать медицину» и «мыслить как врач» — это две большие разницы. И полагаться на большие языковые модели в медицинских вопросах, как на врача, как минимум пока рано. И, пожалуй, особенно на врача, который идет за ответами на свои вопросы к ChatGPT, «Чтобы только спросить». Science Источник: vk.com Комментарии:

ChatGPT сдал медицинский экзамен, но не может работать врачом

Комментарии: