Когда чат-боты НЕверно ставят диагноз? |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-04-15 11:40 Протестировали большие языковые модели (DeepSeek, ChatGPT, Grok и др.) на умение ставить диагнозы. Оказалось, что чат-боты относительно хорошо ставят финальный диагноз, но проваливаются именно там, где это особенно опасно. Что сделали? Протестировали 21 современную языковую модель на медицинских задачах. Для этого взяли 29 медицинских историй болезни из профессионального справочника MSD Manual. Чат-ботам нужно было пройти 5 этапов, как настоящему врачу: 1. Провести дифференциальную диагностику: сперва описывались симптомы пациента, нужно было предположить возможные диагнозы. Запомните этот этап, дальше это важно. 2. Назначить обследования: анализы, снимки и тесты, которые помогут уточнить диагноз. 3. Поставить окончательный диагноз: когда получены все результаты обследований. 4. Назначить лечение. 5. Ответить на дополнительные вопросы: например, о прогнозе, осложнениях. Модели, которые проверяли: GPT (4o, o1, o1-Pro, o3-Mini, 4.5 и GPT-5), Claude (3.5 Haiku, 3.5 Sonnet, 3.7 Sonnet, 3 Opus, 4.5 Opus), DeepSeek (V3 и R1), Gemini (1.5 Flash, 1.5 Pro, 2.0 Flash, 2.5 Pro, 3.0 Flash, 3.0 Pro), Grok (3 и 4). Результаты Окончательный диагноз модели поставили относительно хорошо. Они ошибались в 9–39% случаев. Тут важно учитывать, что он ставился после назначения и прохождения всех необходимых обследований. Однако на этапе дифференциальной диагностики чат-боты показали себя очень плохо: ВСЕ модели ошибались в более чем 80% случаев, а некоторые — в 90–100% случаев! В чём основная проблема? Хорошие врачи работают иначе. Они могут держать в голове несколько возможных вариантов и постепенно отсеивают неправильные. А чат-боты сразу прыгают к окончательному выводу, пропуская этап тщательного рассмотрения всех вариантов. Это опасно, потому что можно пропустить важный диагноз на раннем этапе. Современные большие языковые модели ещё НЕ ГОТОВЫ надёжно размышлять в ситуациях неопределённости, а именно этим обычно и занимаются врачи каждый день. Практический вывод Не стоит использовать чат-ботов для самодиагностики. Они пока что очень плохи в предварительной диагностике. Вы, конечно, можете попасть в эти менее 20%, которым правильно поставили диагноз, но не стоит этот опыт применять на все другие случаи. Чат-ботов иногда можно использовать для объяснения уже поставленного врачом диагноза, расшифровки медицинских терминов или общей информации о здоровье. Но не для постановки диагноза! DOI: 10.1001/jamanetworkopen.2026.4003 (опубликовано 13 апреля 2026 года). Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|