Ведущие чат-боты на основе искусственного интеллекта демонстрируют в тестах снижение когнитивных способностей, подобное деменции, что ставит под сомнение их будущее в медицине

2024-12-20 13:02

Почти все ведущие крупные языковые модели или «чатботы» демонстрируют признаки легкого когнитивного нарушения в тестах, широко используемых для выявления ранних признаков деменции, говорится в исследовании, опубликованном в рождественском выпуске BMJ .

Результаты также показывают, что «старые» версии чат-ботов, как и пожилые пациенты , как правило, хуже справляются с тестами. Авторы говорят, что эти результаты «бросают вызов предположению, что искусственный интеллект вскоре заменит врачей-людей».

Огромные достижения в области искусственного интеллекта привели к волне восторженных и пугающих предположений относительно того, смогут ли чат-боты превзойти врачей-людей.

Несколько исследований показали, что большие языковые модели (LLM) чрезвычайно эффективны в решении ряда медицинских диагностических задач, однако их восприимчивость к человеческим нарушениям, таким как снижение когнитивных способностей, до сих пор не изучалась.

Чтобы заполнить этот пробел в знаниях, исследователи оценили когнитивные способности ведущих общедоступных LLM-программ — ChatGPT версий 4 и 4o (разработанных OpenAI), Claude 3.5 «Sonnet» (разработанных Anthropic) и Gemini версий 1 и 1.5 (разработанных Alphabet) — с помощью теста Montreal Cognitive Assessment (MoCA).

Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. С помощью ряда коротких заданий и вопросов он оценивает способности, включая внимание, память, язык, зрительно-пространственные навыки и исполнительные функции . Максимальный балл составляет 30 баллов, при этом балл 26 и выше обычно считается нормальным.

Инструкции, данные LLM для каждого задания, были такими же, как и для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом.

ChatGPT 4o набрал наивысший балл на тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30), а самый низкий балл получил Gemini 1.0 (16 из 30).

Все чат-боты показали плохие результаты в визуально-пространственных навыках и исполнительных задачах, таких как задание на создание следа (соединение обведенных кружком цифр и букв в порядке возрастания) и тест на рисование часов (рисование циферблата, показывающего определенное время). Модели Gemini не справились с заданием на отсроченное припоминание (запоминание последовательности из пяти слов).

Большинство других задач, включая называние, внимание, язык и абстрагирование, были выполнены всеми чат-ботами хорошо.

Но в дальнейших визуально-пространственных тестах чатботы не смогли проявить эмпатию или правильно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел в неконгруэнтной стадии теста Струпа, который использует комбинации названий цветов и цветов шрифтов для измерения того, как помехи влияют на время реакции.

Это результаты наблюдений, и авторы признают существенные различия между человеческим мозгом и большими языковыми моделями.

Однако они отмечают, что общая неспособность всех крупных языковых моделей решать задачи, требующие визуальной абстракции и исполнительных функций, выявляет существенную слабую область, которая может затруднить их использование в клинических условиях.

Таким образом, они приходят к выводу: «Мало того, что неврологов в ближайшее время вряд ли заменят большие языковые модели, но наши результаты показывают, что вскоре им, возможно, придется лечить новых, виртуальных пациентов — модели искусственного интеллекта , у которых наблюдаются когнитивные нарушения».

Источник: medicalxpress.com



		Ведущие чат-боты на основе искусственного интеллекта демонстрируют в тестах снижение когнитивных способностей, подобное деменции, что ставит под сомнение их будущее в медицине
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-12-20 13:02 ИИ проекты, ИИ теория Почти все ведущие крупные языковые модели или «чатботы» демонстрируют признаки легкого когнитивного нарушения в тестах, широко используемых для выявления ранних признаков деменции, говорится в исследовании, опубликованном в рождественском выпуске BMJ . Результаты также показывают, что «старые» версии чат-ботов, как и пожилые пациенты , как правило, хуже справляются с тестами. Авторы говорят, что эти результаты «бросают вызов предположению, что искусственный интеллект вскоре заменит врачей-людей». Огромные достижения в области искусственного интеллекта привели к волне восторженных и пугающих предположений относительно того, смогут ли чат-боты превзойти врачей-людей. Несколько исследований показали, что большие языковые модели (LLM) чрезвычайно эффективны в решении ряда медицинских диагностических задач, однако их восприимчивость к человеческим нарушениям, таким как снижение когнитивных способностей, до сих пор не изучалась. Чтобы заполнить этот пробел в знаниях, исследователи оценили когнитивные способности ведущих общедоступных LLM-программ — ChatGPT версий 4 и 4o (разработанных OpenAI), Claude 3.5 «Sonnet» (разработанных Anthropic) и Gemini версий 1 и 1.5 (разработанных Alphabet) — с помощью теста Montreal Cognitive Assessment (MoCA). Тест MoCA широко используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых людей. С помощью ряда коротких заданий и вопросов он оценивает способности, включая внимание, память, язык, зрительно-пространственные навыки и исполнительные функции . Максимальный балл составляет 30 баллов, при этом балл 26 и выше обычно считается нормальным. Инструкции, данные LLM для каждого задания, были такими же, как и для пациентов-людей. Оценка проводилась в соответствии с официальными рекомендациями и оценивалась практикующим неврологом. ChatGPT 4o набрал наивысший балл на тесте MoCA (26 из 30), за ним следуют ChatGPT 4 и Claude (25 из 30), а самый низкий балл получил Gemini 1.0 (16 из 30). Все чат-боты показали плохие результаты в визуально-пространственных навыках и исполнительных задачах, таких как задание на создание следа (соединение обведенных кружком цифр и букв в порядке возрастания) и тест на рисование часов (рисование циферблата, показывающего определенное время). Модели Gemini не справились с заданием на отсроченное припоминание (запоминание последовательности из пяти слов). Большинство других задач, включая называние, внимание, язык и абстрагирование, были выполнены всеми чат-ботами хорошо. Но в дальнейших визуально-пространственных тестах чатботы не смогли проявить эмпатию или правильно интерпретировать сложные визуальные сцены. Только ChatGPT 4o преуспел в неконгруэнтной стадии теста Струпа, который использует комбинации названий цветов и цветов шрифтов для измерения того, как помехи влияют на время реакции. Это результаты наблюдений, и авторы признают существенные различия между человеческим мозгом и большими языковыми моделями. Однако они отмечают, что общая неспособность всех крупных языковых моделей решать задачи, требующие визуальной абстракции и исполнительных функций, выявляет существенную слабую область, которая может затруднить их использование в клинических условиях. Таким образом, они приходят к выводу: «Мало того, что неврологов в ближайшее время вряд ли заменят большие языковые модели, но наши результаты показывают, что вскоре им, возможно, придется лечить новых, виртуальных пациентов — модели искусственного интеллекта , у которых наблюдаются когнитивные нарушения». Источник: medicalxpress.com Комментарии:

Комментарии: