Признаки деменции у чат-ботов

2025-01-05 14:34

Большинство современных крупных языковых моделей (LLM) проявляют легкие когнитивные нарушения при выполнении тестов, направленных на выявление ранних стадий деменции, согласно сообщению MedicalXpress. Кроме того, результаты указывают на то, что старые версии чат-ботов, подобно пожилым людям, чаще испытывают трудности с выполнением задач.

Для оценки когнитивных способностей исследователи протестировали несколько популярных программ: GPT-4 и GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic, а также Gemini 1 и 1.5 от Google. В качестве инструмента использовался тест MoCA (Montreal Cognitive Assessment), который применяется для диагностики когнитивных расстройств и начальных симптомов деменции у людей старшего возраста.

Тест включает короткие задания и вопросы, проверяющие такие аспекты, как внимание, память, речевые навыки, пространственное восприятие и способность к принятию решений. Максимальная оценка — 30 баллов, при этом показатель 26 и выше считается нормальным.

Чат-боты получали те же инструкции, что и люди, проходящие тестирование. Оценивание проводилось в строгом соответствии с установленными правилами под наблюдением опытного невролога. Наибольшее количество баллов (26 из 30) набрал GPT-4o, за ним последовали GPT-4 и Claude (по 25 баллов), тогда как наименьший результат показал Gemini 1.0 (16 баллов).

Все чат-боты столкнулись с трудностями при проверке зрительного восприятия и исполнительских функций, таких как задание «тропа» (нужно соединить цифры и буквы в правильном порядке) и тест на рисование циферблата часов. Модель Gemini не смогла запомнить последовательность из пяти слов. Остальные упражнения, включавшие распознавание объектов, концентрацию внимания, речь и абстрактное мышление, чат-боты выполнили достаточно хорошо.

Однако дальнейшее тестирование выявило у чат-ботов ограниченные возможности в сфере зрительно-пространственной обработки информации: они оказались неспособны проявлять эмпатию и правильно интерпретировать сложные образы. Только GPT-4o успешно прошел тест Струпа, требующий быстрого определения цвета написанного слова, когда оно отличается от значения самого слова (например, слово «красный», написанное синим цветом). Этот эксперимент демонстрирует влияние отвлекающих факторов на скорость реакции.

Исследователи подчеркивают разницу между работой человеческого мозга и больших языковых моделей. Тем не менее, они считают, что обнаруженные недостатки могут препятствовать использованию этих технологий в медицинских учреждениях. Как утверждают авторы исследования: «Неврологи вряд ли должны опасаться, что их заменят искусственным интеллектом. Возможно, им придется лечить новых пациентов — самих ИИ-систем, страдающих проблемами с мышлением».

В каких заданиях чат-боты испытывали наибольшие затруднения?

Чат-боты испытывали наибольшие затруднения в заданиях, связанных со следующими аспектами:

1. Зрительно-пространственными навыками:

• тест «Прокладывание тропы». Соединение обведённых кружками цифр и букв в возрастающем порядке;

• рисование циферблата часов, отображающего определённое время.

2. Исполнительскими функциями:

• задания, требующие планирования действий и координации движений, как, например, выполнение инструкций в формате «последовательность шагов».

3. Запоминанием последовательностей:

• некоторые модели, особенно Gemini, не могли воспроизвести предложенную последовательность из пяти слов.

Эти задачи выявили ограничения у большинства исследованных чат-ботов, что указывает на слабые стороны в областях, связанных с обработкой визуальной информации и управлением действиями.

Источник: vk.com

Признаки деменции у чат-ботов

Комментарии: