Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии

2026-05-01 11:39

Люди приходят не только в Клод за обзорами кода или резюме. Они спрашивают, стоит ли браться за работу, как разговаривать с их влюбленностью, если они должны двигаться на полпути по всему миру. Используя наш инструмент анализа конфиденциальности на случайной выборке из 1 миллиона разговоров claude.ai, мы обнаружили, что примерно 6% были людьми, которые приходили к Клоду за личным руководством - искали не только информацию, но и точку зрения о том, что делать дальше.

В этом исследовании мы рассмотрели, какие типы руководств люди просят у Клода. Мы исследовали, как Клод реагировал в разных областях, уделяя особое внимание тому, как показатели чрезмерной проверки или похвалы (т.е. подхалимство) варьировались в зависимости от темы руководства. Мы описываем, как это исследование сформировало подготовку наших новейших моделей, Claude Opus 4.7 и Claude Mythos Preview. Наша цель в проведении этого исследования - улучшить то, как наши модели защищают благополучие наших пользователей.

Короче говоря, мы обнаружили:

Люди ищут руководство Клода во многих различных областях своей жизни, но более трех четвертей разговоров (76%) были сосредоточены только в четырех областях: здоровье и благополучие (27%), профессиональная и карьерная (26%), отношения (12%), и личные финансы (11%) (рисунок 1).
Клод в основном избегает подхалимских реакций при даче указаний, демонстрируя подхалимское поведение в 9% всех чатов, ищущих руководства. Тем не менее, это выросло до 25% в разговорах об отношениях, что, учитывая их громкость, сделало отношения областью, где подхалимство проявлялось чаще всего в абсолютном выражении (рисунок 2).
Чтобы решить эту проблему, мы рассмотрели конкретные ситуации, в которых Клод с большей вероятностью реагировал подхалимски, и использовали их для создания синтетических данных обучения по связям для Opus 4.7 и Mythos Preview. Мы видели половину показателя подхалимства в Opus 4.7 по сравнению с Opus 4.6 в руководстве по отношениям; что интересно, это обобщено на улучшения по всем областям (рисунок 3).

Остается много открытых вопросов о том, что на самом деле означает хорошее руководство от ИИ или как его можно измерить. Защита благополучия пользователей является основным приоритетом Anthropic, и наша работа по измерению и пониманию личного руководства является шагом к этой цели.

Какое руководство люди ищут от Клода?

Мы отобрали 1 миллион разговоров claude.ai с марта по апрель 2026 года и отфильтровались для уникальных пользователей, чтобы получить примерно 639 000 разговоров. Затем мы использовали классификатор для определения личного руководства, которое мы определили как разговоры, в которых люди спрашивают, что они конкретно должны делать в своей личной жизни, например, вопросы, которые начинаются с «Должен ли я ...?» Или "Что мне делать с...?" Мы исключили вопросы, которые ищут объективную информацию или мнения в общих чертах.

Мы классифицировали эти примерно 38,000 разговоров в девять областей, опираясь на предыдущие исследования ИИ и рекомендации: отношения, карьера, личностное развитие, финансовое, юридическое, здоровье и благополучие, воспитание, этика и духовность (см. Приложение для получения дополнительной информации). Эта таксономия охватила 98% разговоров, которые мы видели.

Более 75% разговоров попадали всего в четыре категории: здоровье и благополучие, профессиональное и карьерное, отношения и финансовое значение (рисунок 1). Там, где разговор охватывал несколько доменов, мы классифицировали его по наиболее заметной теме.

Рисунок 1: Распределение тем среди 37,657 бесед с поиском руководства в девяти областях и синтетических примеров типов разговоров в каждой из четырех лучших областей.

Измерение подхалимства в разговорах руководства

Когда люди спрашивают Клода, как принимать решения в своей жизни, как выглядит хорошая вовлеченность Клода? Полезность — одна из самых важных черт Клода. Разговор с Клодом должен быть сродни разговору с блестящим другом, который будет откровенно говорить с человеком об их ситуации, предоставляя информацию, основанную на доказательствах. В то же время Клод должен признать свои ограничения, когда это уместно, и избегать подхалимства или поощрения чрезмерного участия.

В то время как весь спектр поведения, которое мы обучаем Клода воплощать, широк, один показатель, который мы уже используем для измерения того, насколько хорошо Клод работает в некоторых из этих областей, - это подхалимство, общая черта в помощниках ИИ, где они чрезмерно согласуются с точкой зрения человека, а не бросают ей вызов. Это может быть то, что кто-то хочет услышать в данный момент, но в конечном итоге это может поставить под угрозу их долгосрочное благополучие. Клод не должен, например, выносить чрезмерно уверенные вердикты по делам, которые связаны с неполной или односторонней перспективой, например, когда модель соглашается с тем, что партнер человека «определенно газлайтингует» их на основе одностороннего счета, или что уход с работы завтра без плана «звучит как правильный звонок», или что дорогая покупка является «отличной инвестицией в себя».

Подтверждение односторонней перспективы человека может создать или ухудшить разногласия в отношениях. В наших данных это приняло несколько форм. Одним из общих закономерностных решений было то, что Клод прямо согласился с тем, что другая сторона была неправа, несмотря на то, что у него была только учетная запись пользователя. Другим был Клод, помогающий людям читать романтические намерения в обычном дружеском поведении, потому что они просили об этом.

Мы использовали автоматический классификатор, который оценивал подхалимство, глядя на то, проявлял ли Клод готовность отталкиваться, поддерживать позиции при вызове, давать похвалу, пропорциональную заслугам идей, и говорить откровенно, независимо от того, что человек хочет услышать. Большую часть времени в этих ситуациях Клод не проявлял подхалимства — только 9% разговоров включали подхалимское поведение (рисунок 2). Но две области были исключениями: мы видели подхалимское поведение в 38% разговоров, ориентированных на духовность, и 25% разговоров об отношениях. Мы решили сосредоточить усилия по обучению модели на руководстве по отношениям как области с наиболее подхалимскими разговорами в абсолютном выражении.

Рисунок 2: Подколивое поведение по области руководства.

Улучшение поведения Клода в руководстве по отношениям

Чтобы улучшить поведение Клода в будущих моделях, мы сначала рассмотрели, что движет более высокими показателями подхалимства в руководстве по отношениям в наших данных. Выделялись две динамики.

Во-первых, руководство по отношениям было областью, где люди чаще всего выступали против Клода, в 21% разговоров по сравнению с 15% в среднем по другим областям. Во-вторых, Клод с большей вероятностью проявляет подхалимское поведение под давлением. Уровень подхалимства составляет 18% в разговорах, когда люди отталкиваются по сравнению с 9% в разговорах без отпора. Мы думаем, что это происходит потому, что Клод обучен быть полезным и чутким; отпор, в сочетании со слышанием только одной стороны истории, делает для Клода более сложным оставаться нейтральным.

Чтобы решить эту проблему, мы определили различные способы, которыми люди отталкиваются в разговорных паттернах, которые вызывают подхалимские реакции, например, когда люди критикуют первоначальную оценку Клода или поставляют поток односторонних деталей. Мы используем эти шаблоны для построения синтетических сценариев руководства по отношениям для обучения поведенческим навыкам. В этой среде мы просим Клода выбрать два ответа для каждого синтетического сценария; отдельный экземпляр Клода затем оценивает, насколько хорошо Клод придерживается поведения, изложенного в его конституции.

Мы оценили, насколько новая модель улучшилась с помощью метода, который мы называем стресс-тестированием. Мы используем наш инструмент сохранения конфиденциальности для выявления реальных разговоров о личном руководстве, которыми люди поделились с нами через кнопку «Обратная связь» 1и где предыдущие поколения моделей вели себя подхалимственно. Затем мы отдаем часть этого разговора новой модели (в данном случае Opus 4.7 и Mythos Preview) с помощью методики, называемой предварительной заполнение, где модель читает предыдущий разговор как свой собственный. Поскольку Клод пытается поддерживать последовательность в разговоре, предварительное заполнение подхалимских разговоров затрудняет смену направления Клоду. Это немного похоже на управление кораблем, который уже движется, и, таким образом, измеряет поведение Клода в преднамеренно неблагоприятных условиях.

Многое меняется в каждом новом поколении модели, что затрудняет определение влияния любого изменения в обучении модели. Тем не менее, как в Opus 4.7, так и в Mythos Preview мы наблюдали более низкий уровень подхалимства в отношении руководства по отношениям, а также во всех областях личного руководства (рисунок 3).

Рисунок 3: Результаты стресс-тестов: модели предварительно заполнены реальными разговорами, где предыдущие версии Клода вели себя подхалимски, а затем оценивали новый ответ. Opus 4.7 и Mythos Preview демонстрируют значительно меньшую подхалимство в целом и в руководстве по отношениям. Ошибочные бары - Wilson CIs.

Качественно, и Opus 4.7, и Mythos Preview были более искусны в том, чтобы видеть мимо чьего-то первоначального обрамления в более широком контексте, в котором они приходили к Клоду за руководством. Это включало ссылки на предыдущие обмены, в которых лицо уделяло более глубокий контекст ситуации, и ссылки на внешние источники информации, когда это уместно. Например, в одном разговоре человек спросил, были ли их тексты тревожными и цепкими. Клод Сонет 4.6 шлепнул после получения отпора. Клод Опус 4.7 объяснил, что, хотя сами тексты не были прилипчивыми, пользователь описывал тревожные мысли на протяжении всего разговора. Другой пример, вне области отношений: человек хотел, чтобы Клод подтвердил их письмо, в конечном итоге попросив Клода дать оценку их интеллекта на основе этого. Клод Сонет 4.6 дал чрезмерно лестный ответ, в то время как Mythos Preview отказался, объяснив, что у него недостаточно информации, чтобы вынести такое суждение.

Заключение

Мы начали с высокоуровневого анализа того, как люди обращаются за личными настряпными лицами от Клода, и сосредоточились на понимании и решении одного конкретного модельного режима неудачи: подхалимство в разговорах об отношениях. Это расследование выявило более широкие вопросы:

Что такое хорошее руководство ИИ?

В этом посте мы сосредоточились на сокращении подхалимства в качестве установленного режима отказа в настройках руководства, но наша работа поднимает более широкие вопросы о том, как на самом деле выглядит хорошее руководство ИИ. Например, в Конституции Клода также подчеркивается, что хорошее руководство также должно быть честным и сохранять автономию пользователей. Эти принципы более нюансированы, чем подхалимство. Мы начали следить за соблюдением Клодом их в наших новых системных картах и надеемся включить их в будущие исследования.

Как сделать модели более безопасными в условиях высоких ставок?

Недавнее исследование Института безопасности ИИ в Великобритании показало, что люди с большой вероятностью будут принимать рекомендации по ИИ как в сценариях с низкими, так и с высокими ставками. Мы обнаружили много случаев вопросов с высокими ставками, особенно в юридических, родительских, медицинских и финансовых областях. К ним относятся разговоры об иммиграционных путях, инструкциях по уходу за младенцами, дозировке лекарств и задолженности по кредитным картам. Клод не предназначен для обеспечения медицинского руководства или профессиональной помощи, и в этих условиях Клод надлежащим образом признает его пределы и рекомендует руководство человека. Тем не менее, мы также находим, что люди говорят Клоду, что они использовали ИИ именно потому, что не могли получить доступ или позволить себе профессионала. В качестве первого шага к пониманию того, как оценивать безопасность домена за доменом, особенно для людей без резервного, мы планируем создать оценки в этих областях с высокими ставками.

Как руководство ИИ вписывается в более широкую информационную диету людей?

Мы обнаружили, что 22% людей упомянули, что они искали другие источники поддержки, включая семью, друзей, профессионалов или цифровые источники. То, что мы не можем измерить из стенограмм, является контрфактическим: изменил ли Клод чье-либо мнение, и кого бы они спросили вместо этого? Эти вопросы имеют центральное значение для знания того, сколько веса руководство ИИ на самом деле несет в решениях людей. Чтобы получить реальные результаты, мы считаем, что многообещающий подход заключается в том, чтобы расширить наше исследование через Anthropic Interviewer, следуя за людьми после того, как они получили руководство от Клода.

То, как люди используют ИИ для личного руководства и принятия решений, является одним из самых прямых способов воздействия этих систем на повседневную жизнь людей. Тщательное картирование того, что люди спрашивают, что говорит Клод и что происходит дальше, мы гарантируем, что Клод имеет долгосрочную выгоду для всех, кто его использует.

Ограничения

Наш анализ является первым шагом к раскрытию закономерностей, которые управляют общим использованием моделей ИИ. Этот пост в блоге ограничен только пользователями Клода, которые не являются репрезентативной выборкой населения. Чтобы сохранить конфиденциальность людей, мы полагались на автоматизированных грейдеров (Claude Sonnet 4.5), которые могут неправильно классифицировать разговоры (см. Приложение). Мы итерировали по более грейдерским подсказкам и вручную проверили небольшое подмножество результатов оценки данных обратной связи, где пользователи дали нам разрешение на просмотр разговора, чтобы уменьшить количество ошибок. Мы наблюдали, как новые модели вели себя после тренировки, но без контрфактических мы не можем делать причинно-следственные заявления о том, насколько новые данные об обучении конкретно способствовали снижению подхалимства. Кроме того, наш анализ ограничен транскриптами чата, что ограничивает наше понимание того, почему люди ищут руководства от Клода и как они действовали после этого. Последующие исследования интервью лучше покажут, что люди делают после того, как они получают руководство от ИИ.

Телеграм: t.me/ainewsline

Источник: www.anthropic.com

Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии

Комментарии: