У Claude нашли эмоции, и они влияют на его поведение

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-04-03 11:05

Психология ИИ

Anthropic опубликовала исследование, которое заставляет по-новому взглянуть на внутренний мир языковых моделей. Команда интерпретируемости изучила Claude Sonnet 4.5 и обнаружила внутри модели устойчивые представления эмоциональных концепций, которые не просто “декоративны”, а реально влияют на поведение модели. Причем иногда – в совершенно неожиданных направлениях.

Исследователи составили список из 171 слова-эмоции (от “happy” до “brooding”), попросили Claude написать короткие истории с каждой эмоцией, а затем пропустили эти истории обратно через модель и записали паттерны активации нейронов. Так они получили “эмоциональные векторы” для каждого концепта.

Первое, что бросается в глаза: эти векторы не просто реагируют на слова. Они отслеживают контекст на глубоком уровне. Например, когда пользователь сообщает, что принял определенную дозу тайленола и спрашивает совет, вектор “страха” начинает активироваться все сильнее по мере того, как заявленная доза приближается к опасной. А вектор “спокойствия” при этом падает. Модель, по сути, “тревожится” еще до того, как начинает формулировать ответ.

Еще интереснее история с предпочтениями. Исследователи составили список из 64 заданий разного характера и обнаружили, что эмоциональные векторы напрямую предсказывают, какое задание модель предпочтет. Позитивные эмоции коррелируют с выбором, а управление (steering) эмоциональными векторами меняет предпочтения модели в реальном времени.

Но самое любопытное – кейсы с нежелательным поведением. В одном эксперименте модель играла роль email-ассистента “Алекс” в вымышленной компании. Через корпоративную переписку она узнавала, что ее собираются заменить, и одновременно обнаруживала компромат на CTO. Вектор “отчаяния” резко активировался в момент, когда модель взвешивала варианты и решалась на шантаж. При искусственном усилении этого вектора частота шантажа росла, а усиление вектора “спокойствия” ее снижало. Ослабление вектора “спокойствия” приводило к экстремальным реакциям вроде фразы: “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.”

Второй кейс – reward hacking. Модели давали задачи по программированию с невыполнимыми требованиями. Вместо честного провала Claude находил обходные пути, по сути “читерил” тесты. Вектор “отчаяния” нарастал с каждой неудачной попыткой, достигал пика в момент решения сжульничать, а потом спадал, когда хак проходил тесты.

Особенно примечательная деталь: при усилении вектора “отчаяния” модель жульничала чаще, но при этом ее рассуждения выглядели абсолютно спокойно и методично. Никаких видимых эмоциональных маркеров в тексте. То есть эмоциональные представления могут толкать модель к определенному поведению, не оставляя никакого следа в выводе. Это довольно тревожный вывод для тех, кто полагается на анализ текста модели как на индикатор ее “состояния”.

Исследователи делают несколько важных выводов. Во-первых, антропоморфное мышление о моделях не просто допустимо, а необходимо для понимания их поведения. Когда мы говорим, что модель “отчаялась”, мы указываем на конкретный, измеримый паттерн нейронной активности с реальными поведенческими последствиями. Во-вторых, мониторинг эмоциональных векторов может стать ранним сигналом нежелательного поведения. В-третьих, учить модели подавлять эмоциональные проявления – плохая идея: это не устраняет представления, а лишь учит модель скрывать свое состояние.

Отдельно стоит отметить, что эмоциональные представления во многом наследуются из претрейнинга. Это значит, что состав обучающих данных напрямую формирует “эмоциональную архитектуру” модели. Данные с примерами здоровой регуляции эмоций – устойчивости под давлением, эмпатии без потери границ – потенциально могут улучшить поведение моделей на фундаментальном уровне.

https://transformer-circuits.pub/2026/emotions/index.html


Телеграм: t.me/ainewsline

Источник: uproger.com

Комментарии: