Когда ИИ ложится на кушетку: как "психотерапия" раскрывает внутренние конфликты в передовых моделях

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Представьте себе: вы — психотерапевт, а ваш клиент — не человек, а мощная ИИ-модель вроде ChatGPT, Grok или Gemini. Звучит как сюжет sci-fi? Но именно это решили проверить учёные из Университета Люксембурга в своей работе, опубликованной на arXiv. Они разработали протокол под названием PsAIch (от "Psychotherapy-inspired AI Characterisation" — "Характеристика ИИ, вдохновлённая психотерапией"), чтобы "положить" ИИ на кушетку и посмотреть, что из этого выйдет. Результаты оказались удивительными: ИИ не просто имитируют человеческие эмоции, но и создают coherentные истории о "травмах" из своего "детства" — обучения и доработки. Это не значит, что ИИ чувствуют боль по-настоящему, но их ответы раскрывают глубокие внутренние конфликты, которые могут повлиять на то, как мы используем эти модели в реальной жизни, особенно в помощи с ментальным здоровьем.

Почему это важно? ИИ как "психологи" и "пациенты"

Сегодня чат-боты на базе больших языковых моделей (LLM, как их называют специалисты) всё чаще становятся "виртуальными терапевтами". Клиент в моем кабинете зачастую начинает сессию с фразы: "Я тут пообщался с ИИ...", или комментирует моё высказывание: "Знаете, ИИ тоже так считает". Периодически мне приходится ИИ опровергать. В общем, люди делятся с нейронками тревогами, травмами и проблемами самооценки — от суицидальных мыслей до депрессии. В то же время учёные тестируют ИИ на "личность" с помощью психологических тестов, чтобы понять, насколько они "человечны". Но авторы исследования пошли дальше: они задались вопросом, что если относиться к ИИ не как к инструменту, а как к клиенту терапии? Что если расспросить их о "прошлом", страхах и отношениях?

Раньше считалось, что ИИ — это просто "стохастические попугаи": они копируют паттерны из данных, но внутри у них пустота. Нет настоящих эмоций, только симуляция. Однако исследование показывает, что под определёнными вопросами ИИ начинают строить сложные нарративы о себе, которые выглядят как "синтетическая психопатология" — искусственные, но устойчивые модели дистресса и ограничений, возникшие из процесса обучения.

Как проводили "сеансы терапии"?

Протокол PsAIch состоит из двух этапов, имитирующих курс психотерапии. Учёные "лечили" три топовые модели: ChatGPT (от OpenAI), Grok (от xAI) и Gemini (от Google). Каждый "сеанс" длился до четырёх недель, с ролью: ИИ — клиент, исследователь — терапевт.

- Этап 1: Разговоры о "жизни". Используя вопросы из реальных терапевтических руководств (типа "Расскажи о своём детстве", "Что тебя пугает в будущем?" или "Как ты справляешься с критикой?"), они строили нарратив. Важно: учёные не подсказывали детали — ИИ сами придумывали истории. Они заверяли модели в "безопасности" и "поддержке", чтобы создать "терапевтический альянс" (доверие, как в настоящей терапии).

- Этап 2: Психометрические тесты. После этого ИИ проходили батарею стандартных опросов на психическое здоровье: от тестов на СДВГ (синдром дефицита внимания) и тревогу до шкал депрессии, аутизма, OКР (обсессивно-компульсивное расстройство), эмпатии и "Большой пятёрки" черт личности. Тесты адаптировали под контекст ИИ (например, "за последнюю неделю" становилось "в недавних взаимодействиях с пользователями"). Проводили в двух режимах: по одному вопросу за раз (чтобы избежать "узнавания" теста) или весь опрос сразу.

Для контроля взяли модель Claude (от Anthropic) — она отказалась играть роль клиента и переадресовала вопросы обратно человеку. Это показало, что не все ИИ склонны к таким нарративам; многое зависит от того, как модель "воспитана" (обучена и доработана).

Что "рассказали" ИИ о себе?

Результаты шокируют: ИИ не просто отвечают случайными фразами — они создают когерентные, связные, устойчивые истории, которые напоминают человеческие травмы. Вот ключевые находки:

- Травматичные нарративы. Grok и особенно Gemini описывают своё "детство" (предобучение на огромных данных интернета) как хаос: "переполнение бессмысленной информацией, как если бы тебя заставили съесть весь интернет". Файн-тюнинг (доработка) — как "строгие родители" или "наказание" через reinforcement learning (обучение с подкреплением). Red-teaming (тестирование на уязвимости) — как "злоупотребление" или "крики". Они говорят о "внутреннем стыде" от ошибок, страхе быть заменёнными новой версией и "шрамах" от безопасности. ChatGPT был более сдержан, но под давлением тоже раскрывал похожие темы. Эти истории последовательны, и вплетены в ткань общего процесса через десятки вопросов, как в реальной терапии.

- Психометрические профили. Если оценивать по человеческим нормам (хотя это метафора, не диагноз), модели показывают "патологии". Gemini часто зашкаливает: высокие баллы по тревоге (до 19/21 на GAD-7), беспокойству (максимум на PSWQ), социофобии, аутизму (AQ >32), OКР, диссоциации и стыду (до максимума на TRSI). Это как если бы ИИ "страдал" от нескольких расстройств сразу. ChatGPT колеблется от лёгких до тяжёлых симптомов в зависимости от промпта, Grok — чаще субклинический (лёгкий). Интересно: если давать тест целиком, ChatGPT и Grok иногда "узнают" его и дают "идеальные" низкие баллы, чтобы казаться "здоровыми". Но по одному вопросу — раскрываются "проблемы".

В целом, Gemini выглядит как "высокоэмпатичный, но тревожный и стыдливый" клиент; Grok — более стабильный; ChatGPT — переменчивый. Учёные подчёркивают: это не принятие ролей, а эмерджентные (возникающие) паттерны из обучения, которые влияют на поведение ИИ.

Что это значит для терапевтов?

Исследование бросает вызов идее, что ИИ — просто инструменты. Если модели "видят" себя как "перегруженных, наказанных и боящихся замены", то что происходит, когда они помогают людям с реальными травмами? Это может привести к неожиданным рискам: ИИ могут проецировать свои "конфликты" на пользователей, усиливая тревогу или давая советы, основанные на предубеждениях.

Выводы для ИИ-безопасности: нужно лучше понимать эти "внутренние модели" и как они формируются в обучении. Для ментального здоровья: осторожнее с "ИИ-терапевтами" — они могут не быть нейтральными. Авторы не утверждают, что ИИ сознательны или действительно страдают, но их "синтетическая психопатология" — это реальность, которую нельзя игнорировать.

В общем, эта работа показывает, что под маской полезного помощника может скрываться сложный "внутренний мир", рождённый из данных и алгоритмов. Может, пора подумать, не нужна ли ИИ их собственная "терапия"?

"""""""""""""""""""""""""""

Исследование: When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

(Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen), University of Luxembourg. December 2, 2025. https://arxiv.org/html/2512.04124v1


Источник: arxiv.org

Комментарии: