Ведущие чат-боты на основе искусственного интеллекта демонстрируют в тестах снижение когнитивных способностей, подобное деменции, что ставит под сомнение их будущее в медицине

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Почти все ведущие крупные языковые модели или «чатботы» демонстрируют признаки легкого когнитивного нарушения в тестах, широко используемых для выявления ранних признаков деменции, говорится в исследовании, опубликованном в рождественском выпуске BMJ .

Результаты также показывают, что «старые» версии чат-ботов, как и пожилые пациенты , как правило, хуже справляются с тестами. Авторы говорят, что эти результаты «бросают вызов предположению, что искусственный интеллект вскоре заменит врачей-людей».

Огромные достижения в области искусственного интеллекта привели к волне восторженных и пугающих предположений относительно того, смогут ли чат-боты превзойти врачей-людей.

Несколько исследований показали, что большие языковые модели (LLM) чрезвычайно эффективны в решении ряда медицинских диагностических задач, однако их восприимчивость к человеческим нарушениям, таким как снижение когнитивных способностей, до сих пор не изучалась.

Чтобы заполнить этот пробел в знаниях, исследователи оценили когнитивные способности ведущих общедоступных LLM-программ — ChatGPT версий 4 и 4o (разработанных OpenAI), Claude 3.5 «Sonnet» (разработанных Anthropic) и Gemini версий 1 и 1.5 (разработанных Alphabet) — с помощью теста Montreal Cognitive Assessment (MoCA).

Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. С помощью ряда коротких заданий и вопросов он оценивает способности, включая внимание, память, язык, зрительно-пространственные навыки и исполнительные функции . Максимальный балл составляет 30 баллов, при этом балл 26 и выше обычно считается нормальным.

Инструкции, данные LLM для каждого задания, были такими же, как и для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом.

ChatGPT 4o набрал наивысший балл на тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30), а самый низкий балл получил Gemini 1.0 (16 из 30).

Все чат-боты показали плохие результаты в визуально-пространственных навыках и исполнительных задачах, таких как задание на создание следа (соединение обведенных кружком цифр и букв в порядке возрастания) и тест на рисование часов (рисование циферблата, показывающего определенное время). Модели Gemini не справились с заданием на отсроченное припоминание (запоминание последовательности из пяти слов).

Большинство других задач, включая называние, внимание, язык и абстрагирование, были выполнены всеми чат-ботами хорошо.

Но в дальнейших визуально-пространственных тестах чатботы не смогли проявить эмпатию или правильно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел в неконгруэнтной стадии теста Струпа, который использует комбинации названий цветов и цветов шрифтов для измерения того, как помехи влияют на время реакции.

Это результаты наблюдений, и авторы признают существенные различия между человеческим мозгом и большими языковыми моделями.

Однако они отмечают, что общая неспособность всех крупных языковых моделей решать задачи, требующие визуальной абстракции и исполнительных функций, выявляет существенную слабую область, которая может затруднить их использование в клинических условиях.

Таким образом, они приходят к выводу: «Мало того, что неврологов в ближайшее время вряд ли заменят большие языковые модели, но наши результаты показывают, что вскоре им, возможно, придется лечить новых, виртуальных пациентов — модели искусственного интеллекта , у которых наблюдаются когнитивные нарушения».


Источник: medicalxpress.com

Комментарии: