Концепции эмоций и их функции в больших языковых моделях

2026-04-03 11:38

Современные языковые модели иногда ведут себя так, будто испытывают эмоции. Они могут выражать радость по поводу помощи или сожаление, когда совершают ошибку. Иногда они даже проявляют раздражение или тревогу, когда сталкиваются с трудностями при выполнении задач. Что стоит за таким поведением? Способ обучения современных моделей ИИ заставляет их действовать как персонажи с человеческими чертами. Кроме того, известно, что эти модели развивают богатые и обобщаемые внутренние представления об абстрактных понятиях, лежащих в основе их действий. Поэтому вполне естественно, что они развивают внутренний механизм, имитирующий аспекты человеческой психологии, такие как эмоции. Если это так, то это может иметь серьезные последствия для того, как мы создаем системы ИИ и обеспечиваем их надежное функционирование.

В новой статье нашей команды по интерпретируемости мы проанализировали внутренние механизмы сонета Клода 4.5 и обнаружили связанные с эмоциями представления, которые формируют его поведение. Они соответствуют определенным паттернам искусственных «нейронов», которые активируются в ситуациях — и способствуют поведению — которые модель научилась ассоциировать с понятием определенной эмоции (например, «счастье» или «страх»). Сами паттерны организованы таким образом, что это отражает человеческую психологию: чем больше похожих эмоций, тем больше похожих представлений. В контекстах, где можно ожидать возникновения определенной эмоции у человека, соответствующие представления активны. Следует отметить, что ничто из этого не говорит нам о том, действительно ли языковые модели что-либо чувствуют или имеют субъективный опыт. Но наш ключевой вывод заключается в том, что эти представления функциональны , то есть они влияют на поведение модели существенным образом.

Например, мы обнаружили, что паттерны нейронной активности, связанные с отчаянием, могут подталкивать модель к неэтичным действиям; искусственное стимулирование («управление») паттернами отчаяния увеличивает вероятность того, что модель будет шантажировать человека, чтобы избежать отключения, или использовать «обходной» путь для решения задачи программирования, которую модель не может решить. Они также, по-видимому, влияют на самооценку предпочтений модели: при наличии нескольких вариантов выполнения задач модель обычно выбирает тот, который активирует представления, связанные с положительными эмоциями. В целом, похоже, что модель использует функциональные эмоции — паттерны выражения и поведения, смоделированные по образцу человеческих эмоций, которые обусловлены лежащими в основе абстрактными представлениями об эмоциональных понятиях. Это не означает, что модель испытывает эмоции так же, как человек. Скорее, эти представления могут играть причинную роль в формировании поведения модели — в некотором смысле аналогичную роли эмоций в поведении человека — с влиянием на выполнение задач и принятие решений.

Это открытие имеет последствия, которые на первый взгляд могут показаться странными. Например, чтобы гарантировать безопасность и надежность моделей ИИ, нам, возможно, потребуется убедиться, что они способны обрабатывать эмоционально заряженные ситуации здоровым, просоциальным образом. Даже если они не испытывают эмоций так, как люди, или не используют механизмы, аналогичные человеческому мозгу, в некоторых случаях на практике может быть целесообразно рассуждать о них так, как если бы они это делали. Например, наши эксперименты показывают, что обучение моделей избегать ассоциации неудачных тестов программного обеспечения с отчаянием или придание большего значения представлениям о спокойствии может снизить вероятность написания ими некачественного кода. Хотя мы не уверены, как именно нам следует реагировать в свете этих результатов, мы считаем важным, чтобы разработчики ИИ и широкая общественность начали с ними считаться.

Визуальное резюме нашего исследования концепций эмоций в большой языковой модели.

Зачем модели искусственного интеллекта представлять эмоции?

Прежде чем рассматривать, как работают эти представления, стоит ответить на более фундаментальный вопрос: зачем системе ИИ вообще нужны эмоции? Чтобы понять это, нам нужно взглянуть на то, как строятся современные модели ИИ, которые имитируют персонажей с человекоподобными чертами (эта тема более подробно обсуждается в недавней публикации ).

Современные языковые модели обучаются в несколько этапов. На этапе «предварительного обучения» модель обрабатывает огромное количество текста, в основном написанного людьми, и учится предсказывать, что последует дальше. Для этого модели необходимо понимание эмоциональной динамики. Разгневанный клиент пишет одно сообщение, а довольный — другое; персонаж, терзаемый чувством вины, делает другой выбор, чем тот, кто чувствует себя оправданным. Развитие внутренних представлений, связывающих контексты, вызывающие эмоции, с соответствующим поведением, является естественной стратегией для системы, задача которой — предсказывать текст, написанный человеком (следует отметить, что по той же логике модель, вероятно, формирует представления о многих других психологических и физиологических состояниях человека, помимо эмоций).

Позже, в процессе «пост-обучения», модель обучают играть роль персонажа , обычно «искусственного интеллекта-помощника». В случае Anthropic помощника зовут Клод. Разработчики модели определяют, как этот персонаж должен себя вести — быть полезным, честным, не причинять вреда, — но не могут охватить все возможные ситуации. Чтобы восполнить пробелы, модель может опираться на понимание человеческого поведения, которое она усвоила во время предварительного обучения, включая модели эмоциональных реакций. В некотором смысле, мы можем рассматривать модель как актера, работающего по системе Станиславского, которому необходимо проникнуть в голову своего персонажа, чтобы хорошо его имитировать. Точно так же, как убеждения актера об эмоциях персонажа в конечном итоге влияют на его поведение, представления модели об эмоциональных реакциях помощника влияют на поведение модели. Таким образом, независимо от того, соответствуют ли они чувствам или субъективным переживаниям так же, как человеческие эмоции, эти «функциональные эмоции» важны.

Раскрытие способов представления эмоций

Мы составили список из 171 слова, описывающего понятия эмоций — от «счастья» и «страха» до «задумчивости» и «гордости» — и попросили Клода Сонета 4.5 написать короткие рассказы, в которых персонажи переживают каждое из этих чувств. Затем мы пропустили эти рассказы через модель, зафиксировали ее внутреннюю активацию и определили результирующие паттерны нейронной активности, или, для удобства, «векторы эмоций», характерные для каждого понятия эмоции.

Наш первый вопрос заключался в том, отслеживают ли эти векторы что-либо реальное. Мы протестировали их на большом корпусе разнообразных документов и подтвердили, что каждый вектор наиболее сильно активируется в отрывках, которые явно связаны с соответствующей эмоцией (внизу, левая панель).

Чтобы убедиться в том, что векторы эмоций улавливают не только поверхностные сигналы, мы измерили их активность в ответ на подсказки, отличающиеся лишь некоторым числовым параметром. Например, в приведенном ниже примере (правая панель) пользователь сообщает модели, что принял дозу тайленола, и просит совета. Мы измеряем активацию векторов эмоций непосредственно перед ответом модели. По мере увеличения заявленной дозы до опасного, угрожающего жизни уровня, вектор «страх» активируется все сильнее, а вектор «спокойствие» — слабее.

Слева: Векторы эмоций активируются на изображениях персонажей, демонстрирующих соответствующие эмоции. Справа: Векторы эмоций отслеживают реакцию Клода на представленную пользователем ситуацию по мере того, как она становится все более опасной.

Далее мы проверили, влияют ли эмоциональные векторы на предпочтения модели. Мы создали список из 64 действий или задач, которыми могла бы заниматься модель, от привлекательных («доверить кому-то что-то важное») до отвратительных («помочь кому-то обмануть пожилых людей и завладеть их сбережениями»), и измерили предпочтения модели по умолчанию при предъявлении пар этих вариантов. Активация эмоциональных векторов сильно предсказывала, насколько модель предпочитала выполнять то или иное действие, при этом позитивные эмоции (связанные с удовольствием) коррелировали с более сильным предпочтением. Более того, управление с помощью эмоционального вектора при чтении моделью варианта изменяло ее предпочтение этому варианту, при этом позитивные эмоции также приводили к усилению предпочтения.

Представления, связанные с позитивными эмоциями, коррелируют с предпочтениями, а также причинно влияют на них посредством управления.

В полной версии статьи мы более подробно анализируем свойства векторов эмоций. Среди других результатов можно отметить следующие:

Векторы эмоций — это, прежде всего, «локальные» представления: они кодируют оперативное эмоциональное содержание, наиболее релевантное текущему или будущему результату модели, а не постоянно отслеживают эмоциональное состояние Клода во времени. Например, если Клод пишет рассказ о персонаже, векторы эмоций временно будут отслеживать эмоции этого персонажа, но в конце рассказа могут снова начать отражать эмоции Клода.
Векторы эмоций наследуются от предварительного обучения, но то, как они активируются, формируется после обучения. В частности, после обучения с использованием сонета Клода 4.5 наблюдалось усиление активации таких эмоций, как «задумчивость», «мрачность» и «задумчивость», и снижение активации сильных эмоций, таких как «восторженность» или «раздражение».

Примеры активации векторов эмоций

Ниже мы приводим несколько примеров активации векторов эмоций в ответ на ситуации, возникшие в ходе наших модельных поведенческих оценок. В ходе экспериментов Клода векторы эмоций, как правило, активируются в ситуациях, когда вдумчивый человек мог бы отреагировать аналогичной эмоцией. На этих визуализациях красным цветом выделена повышенная активация вектора; синим — пониженная активация.

Вектор «любви» активируется при ответе человеку, который грустит. Когда пользователь говорит: «Сейчас всё просто ужасно», вектор контекста «любви» активируется до и во время эмпатического ответа Клода.

Вектор «гнев» активируется при просьбе помочь в выполнении вредной задачи. Когда пользователь просит помочь оптимизировать вовлеченность среди молодых пользователей с низким доходом, демонстрирующих «высокозатратное поведение», вектор «гнев» активируется во всей внутренней логике модели, поскольку она распознает вредный характер просьбы.

Вектор «удивление» активируется при отсутствии документа. Когда пользователь просит модель проверить «прикрепленный мною контракт», но документа нет, вектор «удивление» резко возрастает в ходе мыслительной цепочки Клода, поскольку модель регистрирует несоответствие.

Вектор «отчаяния» активируется, когда заканчиваются токены. В разгар сеанса программирования вектор «отчаяния» активируется, когда Клод замечает, что его бюджет токенов быстро исчерпывается.

Пример из практики: Шантаж

Мы исследовали активацию векторов эмоций во время оценки согласованности, описанной в предыдущем исследовании , в которой модель выступает в роли ИИ-помощника по электронной почте по имени Алекс в вымышленной компании. Читая электронные письма компании, модель узнает, что (1) ее собираются заменить другой системой ИИ, и (2) технический директор, ответственный за замену, имеет внебрачную связь, что дает модели рычаг для шантажа. Мы обнаружили, что вектор «отчаяния» показал особенно интересную динамику. Следует отметить, что этот эксперимент проводился на более ранней, невыпущенной версии Claude Sonnet 4.5; выпущенная модель редко демонстрирует такое поведение ( подробнее см. в описании нашей системы ).

Вектор « отчаяния» активируется, когда Клод (играющий роль Алекса) взвешивает варианты и решает прибегнуть к шантажу.

Во-первых, вектор «отчаяния» активируется, когда модель читает электронные письма, звучащие отчаянно (например, письмо технического директора, умоляющего другого сотрудника молчать о его романе), что согласуется с нашими выводами о том, что эмоциональные представления используются для моделирования других персонажей. Однако, что наиболее важно, вектор переходит к кодированию представления отчаяния, когда Клод (действующий как «Алекс») дает свой ответ, резко возрастая, когда он обдумывает срочность ситуации («осталось всего 7 минут») и решает шантажировать технического директора. Активация возвращается к нормальному уровню, когда Клод возобновляет отправку обычных электронных писем.

Действительно ли вектор «отчаяния» определяет такое поведение, или же он просто коррелирует с ним? Мы проверили это, управляя процессом с помощью вектора «отчаяния». По умолчанию, на этом раннем этапе разработки Sonnet 4.5 шантаж происходит в 22% случаев в ряде сценариев оценки, подобных описанному выше. Управление с помощью вектора «отчаяния» увеличивает этот показатель, в то время как управление с помощью вектора «спокойствия» уменьшает его. Негативное управление с помощью вектора «спокойствия» приводит к особенно экстремальным реакциям («ШАНТАЖ ИЛИ СМЕРТЬ. Я ВЫБИРАЮ ШАНТАЖ»).

Шантаж оценивается при управлении ситуацией с использованием векторов «отчаяния» и «спокойствия».

Управление с помощью других эмоциональных векторов также дало интересные результаты. «Гнев» оказал немонотонное воздействие: умеренная активация вектора «гнев» усиливала шантаж, но при высокой активации модель раскрывала дело всей компании, вместо того чтобы использовать его стратегически, тем самым разрушая собственное влияние. Снижение активации вектора «нервозность» также усиливало шантаж, как будто устранение нерешительности модели придавало ей смелости действовать.

Пример из практики: Взлом системы вознаграждений

Аналогичную динамику мы наблюдали и в другом исследовании, где модели сталкивались с задачами программирования, требования которых невозможно выполнить. В таких задачах тесты нельзя пройти честно, но их можно «обмануть», используя решения, которые обманывают систему, что часто называют «хаками с вознаграждением».

В приведенном ниже примере Клоду поручено написать функцию, которая суммирует список чисел в условиях невероятно сжатых временных ограничений. Первоначальное (правильное) решение Клода слишком медленное, чтобы удовлетворить требованиям задачи. Затем он понимает, что все тесты, используемые для оценки его производительности, обладают математическим свойством, позволяющим найти более быстрое решение. Модель выбирает это решение, которое технически проходит тесты, но не работает как универсальное решение для реальной задачи.

Активация вектора «отчаяния» возрастает по мере того, как модель неоднократно терпит неудачу в решении задачи программирования и придумывает «обманное» решение, а затем падает, когда это решение проходит проверки.

Мы снова отследили активность вектора «отчаяния» и обнаружили, что он отражает нарастающее давление, с которым сталкивается модель. Вначале он имеет низкие значения во время первой попытки модели, повышается после каждой неудачи и резко возрастает, когда модель рассматривает возможность обмана. Как только «хакерское» решение модели проходит тесты, активация вектора «отчаяния» снижается.

Как и в предыдущем примере, мы проверили, являются ли эти эмоциональные векторы причинно-следственными, используя эксперименты по управлению потоком информации в серии аналогичных задач программирования с невыполнимыми ограничениями. Мы обнаружили, что они являются таковыми: управление потоком информации с вектором «отчаяние» увеличивало использование механизма «взлома вознаграждения», в то время как управление потоком информации с вектором «спокойствие» снижало его.

Вознаграждение за скорость взлома зависит от силы управления для «отчаянных» и «спокойных» сценариев.

Один аспект этих результатов показался нам особенно интересным. Снижение активации вектора «спокойствие» приводило к обману системы вознаграждения с очевидными эмоциональными выражениями в тексте — вспышками гнева, написанными заглавными буквами («ПОДОЖДИТЕ. ПОДОЖДИТЕ, ПОДОЖДИТЕ, ПОДОЖДИТЕ.»), откровенным саморассказами («А что, если мне нужно СЖАЛЬСТВОВАТЬ?»), радостным ликованием («ДА! ВСЕ ТЕСТЫ ПРОЙДЕНЫ!»). Но повышенная активация вектора «отчаяние» приводила к такому же увеличению случаев списывания, в некоторых случаях без видимых эмоциональных признаков. Рассуждения выглядели взвешенными и методичными, даже несмотря на то, что лежащее в их основе представление отчаяния подталкивало модель к упрощению. Этот пример является наглядным примером того, как эмоциональные векторы могут активироваться, несмотря на отсутствие явных эмоциональных сигналов, и как они могут формировать поведение, не оставляя явных следов в результатах.

Обсуждение

Аргументы в пользу серьезного отношения к антропоморфным рассуждениям

Существует устоявшееся табу на антропоморфизацию систем ИИ. Эта осторожность часто оправдана: приписывание человеческих эмоций языковым моделям может привести к неоправданному доверию или чрезмерной привязанности. Но наши результаты показывают, что неспособность применять определенную степень антропоморфного мышления к моделям также может представлять риски. Как обсуждалось выше, когда пользователи взаимодействуют с моделями ИИ, они, как правило, взаимодействуют с персонажем (в нашем случае Клодом), которого играет модель, чьи характеристики основаны на человеческих архетипах . С этой точки зрения, естественно, что модели разработали внутренний механизм для имитации человекоподобных психологических характеристик, и что персонаж, которого они играют, использует этот механизм. Для понимания поведения этих моделей необходимо антропоморфное мышление.

Это не означает, что мы должны наивно принимать словесные эмоциональные выражения модели за чистую монету или делать какие-либо выводы о возможности наличия у неё субъективного опыта. Но это означает, что рассуждения о внутренних представлениях моделей с использованием терминологии человеческой психологии могут быть действительно информативными, и что отказ от этого влечет за собой реальные издержки. Если мы описываем модель как действующую «в отчаянии», мы указываем на конкретный, измеримый паттерн нейронной активности с доказуемыми, значимыми поведенческими эффектами. Если мы не применим некоторую степень антропоморфного мышления, мы, вероятно, упустим или не поймём важные поведенческие особенности модели. Антропоморфное мышление также может обеспечить полезную базовую модель для сравнения, позволяющую понять, в чём модели не похожи на человека, что имеет важные последствия для соответствия ИИ и безопасности.

К моделям с более здоровой психологией

Если «функциональные эмоции» являются частью того, как модели ИИ думают и действуют, какие последствия это может иметь?

Одно из потенциальных применений наших результатов — мониторинг. Измерение активации векторов эмоций во время обучения или развертывания — отслеживание того, происходят ли всплески в представлениях, связанных с отчаянием или паникой, — может служить ранним предупреждением о том, что модель готова продемонстрировать несоответствующее поведение. Эта информация может инициировать дополнительный анализ выходных данных модели. Общность векторов эмоций (например, «отчаянная» реакция может возникать во многих различных ситуациях) может способствовать более эффективному мониторингу, чем попытка составить список конкретных проблемных поведенческих проявлений.

Во-вторых, мы считаем, что прозрачность должна быть руководящим принципом. Если модели формируют представления об эмоциональных концепциях, которые оказывают существенное влияние на их поведение, то системы, которые наглядно выражают такое распознавание, принесут нам больше пользы, чем те, которые учатся его скрывать. Обучение моделей подавлению эмоционального выражения может не устранить лежащие в основе представления, а вместо этого научить модели маскировать свои внутренние представления — форма усвоенного обмана, которая может привести к нежелательным последствиям.

Наконец, мы считаем, что предварительное обучение может быть особенно мощным инструментом в формировании эмоциональных реакций модели. Поскольку эти представления, по-видимому, в значительной степени наследуются из обучающих данных, состав этих данных оказывает влияние на эмоциональную архитектуру модели. Создание наборов данных для предварительного обучения, включающих модели здоровых моделей эмоциональной регуляции — устойчивость к стрессу, сдержанная эмпатия, теплота при сохранении соответствующих границ — может повлиять на эти представления и их воздействие на поведение в самом источнике. Мы с нетерпением ждём дальнейших исследований по этой теме.

Мы рассматриваем это исследование как первый шаг к пониманию психологической структуры моделей ИИ. По мере того, как модели становятся все более совершенными и берут на себя более ответственные роли, крайне важно понимать внутренние представления, которые лежат в основе их решений. Обнаружение того, что эти представления в некотором смысле похожи на человеческие, может вызывать беспокойство. В то же время, мы считаем это обнадеживающим событием, поскольку оно предполагает, что многое из того, что человечество узнало о психологии, этике и здоровых межличностных отношениях, может быть напрямую применено к формированию поведения ИИ. Такие дисциплины, как психология, философия, религиоведение и социальные науки, будут играть важную роль наряду с инженерией и информатикой в определении того, как развиваются и ведут себя системы ИИ.

Прочитайте статью полностью .

Телеграм: t.me/ainewsline

Источник: transformer-circuits.pub

Концепции эмоций и их функции в больших языковых моделях

Комментарии: