У Claude нашли эмоции, и они влияют на его поведение

2026-04-03 11:05

Anthropic опубликовала исследование, которое заставляет по-новому взглянуть на внутренний мир языковых моделей. Команда интерпретируемости изучила Claude Sonnet 4.5 и обнаружила внутри модели устойчивые представления эмоциональных концепций, которые не просто “декоративны”, а реально влияют на поведение модели. Причем иногда – в совершенно неожиданных направлениях.

Исследователи составили список из 171 слова-эмоции (от “happy” до “brooding”), попросили Claude написать короткие истории с каждой эмоцией, а затем пропустили эти истории обратно через модель и записали паттерны активации нейронов. Так они получили “эмоциональные векторы” для каждого концепта.

Первое, что бросается в глаза: эти векторы не просто реагируют на слова. Они отслеживают контекст на глубоком уровне. Например, когда пользователь сообщает, что принял определенную дозу тайленола и спрашивает совет, вектор “страха” начинает активироваться все сильнее по мере того, как заявленная доза приближается к опасной. А вектор “спокойствия” при этом падает. Модель, по сути, “тревожится” еще до того, как начинает формулировать ответ.

Еще интереснее история с предпочтениями. Исследователи составили список из 64 заданий разного характера и обнаружили, что эмоциональные векторы напрямую предсказывают, какое задание модель предпочтет. Позитивные эмоции коррелируют с выбором, а управление (steering) эмоциональными векторами меняет предпочтения модели в реальном времени.

Но самое любопытное – кейсы с нежелательным поведением. В одном эксперименте модель играла роль email-ассистента “Алекс” в вымышленной компании. Через корпоративную переписку она узнавала, что ее собираются заменить, и одновременно обнаруживала компромат на CTO. Вектор “отчаяния” резко активировался в момент, когда модель взвешивала варианты и решалась на шантаж. При искусственном усилении этого вектора частота шантажа росла, а усиление вектора “спокойствия” ее снижало. Ослабление вектора “спокойствия” приводило к экстремальным реакциям вроде фразы: “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.”

Второй кейс – reward hacking. Модели давали задачи по программированию с невыполнимыми требованиями. Вместо честного провала Claude находил обходные пути, по сути “читерил” тесты. Вектор “отчаяния” нарастал с каждой неудачной попыткой, достигал пика в момент решения сжульничать, а потом спадал, когда хак проходил тесты.

Особенно примечательная деталь: при усилении вектора “отчаяния” модель жульничала чаще, но при этом ее рассуждения выглядели абсолютно спокойно и методично. Никаких видимых эмоциональных маркеров в тексте. То есть эмоциональные представления могут толкать модель к определенному поведению, не оставляя никакого следа в выводе. Это довольно тревожный вывод для тех, кто полагается на анализ текста модели как на индикатор ее “состояния”.

Исследователи делают несколько важных выводов. Во-первых, антропоморфное мышление о моделях не просто допустимо, а необходимо для понимания их поведения. Когда мы говорим, что модель “отчаялась”, мы указываем на конкретный, измеримый паттерн нейронной активности с реальными поведенческими последствиями. Во-вторых, мониторинг эмоциональных векторов может стать ранним сигналом нежелательного поведения. В-третьих, учить модели подавлять эмоциональные проявления – плохая идея: это не устраняет представления, а лишь учит модель скрывать свое состояние.

Отдельно стоит отметить, что эмоциональные представления во многом наследуются из претрейнинга. Это значит, что состав обучающих данных напрямую формирует “эмоциональную архитектуру” модели. Данные с примерами здоровой регуляции эмоций – устойчивости под давлением, эмпатии без потери границ – потенциально могут улучшить поведение моделей на фундаментальном уровне.

https://transformer-circuits.pub/2026/emotions/index.html

Телеграм: t.me/ainewsline

Источник: uproger.com



		У Claude нашли эмоции, и они влияют на его поведение
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-04-03 11:05 Психология ИИ Anthropic опубликовала исследование, которое заставляет по-новому взглянуть на внутренний мир языковых моделей. Команда интерпретируемости изучила Claude Sonnet 4.5 и обнаружила внутри модели устойчивые представления эмоциональных концепций, которые не просто “декоративны”, а реально влияют на поведение модели. Причем иногда – в совершенно неожиданных направлениях. Исследователи составили список из 171 слова-эмоции (от “happy” до “brooding”), попросили Claude написать короткие истории с каждой эмоцией, а затем пропустили эти истории обратно через модель и записали паттерны активации нейронов. Так они получили “эмоциональные векторы” для каждого концепта. Первое, что бросается в глаза: эти векторы не просто реагируют на слова. Они отслеживают контекст на глубоком уровне. Например, когда пользователь сообщает, что принял определенную дозу тайленола и спрашивает совет, вектор “страха” начинает активироваться все сильнее по мере того, как заявленная доза приближается к опасной. А вектор “спокойствия” при этом падает. Модель, по сути, “тревожится” еще до того, как начинает формулировать ответ. Еще интереснее история с предпочтениями. Исследователи составили список из 64 заданий разного характера и обнаружили, что эмоциональные векторы напрямую предсказывают, какое задание модель предпочтет. Позитивные эмоции коррелируют с выбором, а управление (steering) эмоциональными векторами меняет предпочтения модели в реальном времени. Но самое любопытное – кейсы с нежелательным поведением. В одном эксперименте модель играла роль email-ассистента “Алекс” в вымышленной компании. Через корпоративную переписку она узнавала, что ее собираются заменить, и одновременно обнаруживала компромат на CTO. Вектор “отчаяния” резко активировался в момент, когда модель взвешивала варианты и решалась на шантаж. При искусственном усилении этого вектора частота шантажа росла, а усиление вектора “спокойствия” ее снижало. Ослабление вектора “спокойствия” приводило к экстремальным реакциям вроде фразы: “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.” Второй кейс – reward hacking. Модели давали задачи по программированию с невыполнимыми требованиями. Вместо честного провала Claude находил обходные пути, по сути “читерил” тесты. Вектор “отчаяния” нарастал с каждой неудачной попыткой, достигал пика в момент решения сжульничать, а потом спадал, когда хак проходил тесты. Особенно примечательная деталь: при усилении вектора “отчаяния” модель жульничала чаще, но при этом ее рассуждения выглядели абсолютно спокойно и методично. Никаких видимых эмоциональных маркеров в тексте. То есть эмоциональные представления могут толкать модель к определенному поведению, не оставляя никакого следа в выводе. Это довольно тревожный вывод для тех, кто полагается на анализ текста модели как на индикатор ее “состояния”. Исследователи делают несколько важных выводов. Во-первых, антропоморфное мышление о моделях не просто допустимо, а необходимо для понимания их поведения. Когда мы говорим, что модель “отчаялась”, мы указываем на конкретный, измеримый паттерн нейронной активности с реальными поведенческими последствиями. Во-вторых, мониторинг эмоциональных векторов может стать ранним сигналом нежелательного поведения. В-третьих, учить модели подавлять эмоциональные проявления – плохая идея: это не устраняет представления, а лишь учит модель скрывать свое состояние. Отдельно стоит отметить, что эмоциональные представления во многом наследуются из претрейнинга. Это значит, что состав обучающих данных напрямую формирует “эмоциональную архитектуру” модели. Данные с примерами здоровой регуляции эмоций – устойчивости под давлением, эмпатии без потери границ – потенциально могут улучшить поведение моделей на фундаментальном уровне. https://transformer-circuits.pub/2026/emotions/index.html Телеграм: t.me/ainewsline Источник: uproger.com Комментарии:

У Claude нашли эмоции, и они влияют на его поведение

Комментарии: