ChatGPT сдал медицинский экзамен, но не может работать врачом |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-11-30 11:21 Приходишь к врачу, а он тебе цитирует новейшие и лучшие учебники, помнит наизусть тысячи редких синдромов, сдает экзамены на высший балл, но стоит спросить: «Доктор, у меня вот тут колет, а еще я вчера котлетку ел на ночь», — его начинает клинить. По большому счету так обстоят дела с большими языковыми моделями, когда речь идет о реальной медицине. Проблема в том, что обычно их тестируют на стандартных экзаменах вроде USMLE (это американская лицензия для врачей). Там нужно выбрать ответ из четырех вариантов. И модели тут чудо как хороши и ставят рекорд за рекордом. Но реальная клиника — это ж не викторина тщеславия, а бесконечная работа с неопределенностью. Поэтому исследователи в новой работе проверили алгоритмы «по-честному». Они собрали свой бенчмарк из 750 задач. И это изящно сделано, надо признать. Там не нужно ставить диагноз с нуля. Вам, то есть нейронке, дают сценарий (например, «пациент с болью в груди») и гипотезу («это инфаркт»). А затем подкидывают новый факт («на ЭКГ все чисто») и спрашивают: как этот факт меняет вероятность гипотезы? Вариантов пять: от «гораздо менее вероятно»(-2) до «гораздо более вероятно» (+2). И вот так сравнили 10 топовых моделей (включая o1, GPT-4o, Claude 3.5, DeepSeek R1) с тем, как справлялись люди: 1070 студентов-медиков, 193 ординатора и 300 практикующих врачей. Результаты получились, прямо скажем, отрезвляющие. Ни одна модель не смогла дотянуться до уровня опытных врачей. Лучший результат показала OpenAI o3 (67,8%), за ней GPT-4o, а вот специализированные «рассуждающие» модели вроде o1-preview и DeepSeek R1 неожиданно провалились, набрав меньше баллов. Google Gemini 2.5 вообще оказался в хвосте (3 версия еще не вышла тогда). Любопытно, что так называемые «рассуждающие» модели (строящие цепочки рассуждений при обработке вашего сообщения) здесь вроде бы должны справляться лучше, ведь тут сложная логика. Но у исследователей получилось наоборот: эти модели страдали от самоуверенности. Там, где живой врач осторожно ставит +1 («ну, это немного повышает вероятность») или 0 («этот факт вообще ни о чем не говорит»), «рассуждающие» модели рубят с плеча и выбирают крайние значения +2 или -2. Они почти не используют ноль. Получается, как полагают авторы, что попытка заставить модель рассуждать шаг за шагом в условиях нехватки данных приводит к тому, что она сама себя убеждает в радикальных выводах. То, что называется «иллюзией компетентности»: модель строит логичную цепочку на зыбком фундаменте и приходит к железобетонному (и неверному) заключению. Конечно, к самому методу бенчмарка можно тоже придраться. Ведь он оценивает ответы по совпадению с мнением группы экспертов. Это значит, что если модель (или гениальный врач) увидит неочевидную связь, которую пропустило большинство коллег, тест засчитает это как ошибку. Но пока что авторы приходят в целом к очевидному для многих, кто понимает, как работают нейронки, выводу: «знать медицину» и «мыслить как врач» — это две большие разницы. И полагаться на большие языковые модели в медицинских вопросах, как на врача, как минимум пока рано. И, пожалуй, особенно на врача, который идет за ответами на свои вопросы к ChatGPT, «Чтобы только спросить». Science Источник: vk.com Комментарии: |
|