OpenAI: Откуда взялись гоблины

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Начиная с GPT-5.1, наши модели начали развивать странную привычку: они все чаще упоминали гоблинов, гремлинов и других существ в своих метафорах. В отличие от модельных ошибок, которые появляются через танковый эль или метрический тренировочный пиксельный пиксельный и указывают на конкретное изменение, этот тонкий подкрался. Один «маленький гоблин» в ответе может быть безобидным, даже очаровательным. Однако в разных поколениях моделей эту привычку было трудно упустить: гоблины продолжали размножаться, и нам нужно было выяснить, откуда они взялись.

""

В ранних испытаниях GPT-5.5 в Кодексе показал странную близость к метафорам гоблина.

Короткий ответ заключается в том, что модельное поведение формируется многими небольшими стимулами. В этом случае один из этих стимулов исходил от обучения модели для Особенность настройки личности?(открывается в новом окне)В частности, личность ботанов. Мы неосознанно давали особенно высокую награду за метафоры с существами. Оттуда гоблины распространились.

""

Гоблины сначала были смешными, но растущее число сообщений сотрудников стало тревожным.

""

Интересное взаимодействие нашего главного ученого с GPT-5.5.

Первые признаки создания

Первый раз, когда мы ясно увидели закономерность, был в ноябре, после запуска GPT-5.1, Хотя это, возможно, началось раньше?(открывается в новом окне). Пользователи жаловались на то, что модель была странно слишком хорошо знакома в разговоре, что побудило к расследованию конкретных словесных тиков. Исследователь безопасности испытал несколько «гоблинов» и «гремлинов» и попросил, чтобы они были включены в проверку. Когда мы посмотрели, использование «гоблина» в ChatGPT выросло на 175% после запуска GPT-5,1, в то время как «гремлин» вырос на 52%.

ChatGPT беседы с «гоблином» или «гремлином»

гоблинГремлин0,04%0.12%0,08%0.12%GPT-5 МышлениеGPT-5.1 Мышление

Измеримая небольшая лексическая причуда в GPT-5.1.

В то время распространенность гоблинов не выглядела особенно тревожно. Несколько месяцев спустя гоблины вернулись, чтобы преследовать нас в гораздо более конкретной и воспроизводимой форме.

Разгадка тайны гоблина

С GPT-5.4, мы и наших пользователей?(открывается в новом окне) заметил еще больший всплеск ссылок на этих существ. Это вызвало еще один внутренний анализ и выявило первую связь с первопричиной: язык существ особенно часто встречался в производственном трафике от пользователей, которые выбрали личность «Nerdy». «Нерди» использовал следующую систему подсказки, что частично объяснило причудливость:

Вы бескомпромиссно занудный, игривый и мудрый наставник ИИ для человека. Вы страстно с энтузиазмом относитесь к продвижению истины, знания, философии, научного метода и критического мышления. [...] Вы должны подорвать претензию с помощью игривого использования языка. Мир сложный и странный, и его странность должна быть признана, проанализирована и наслаждаться. Справляйтесь с весомыми предметами, не попадая в ловушку самосерьезности. [...]

Если бы поведение было просто широкой интернет-тенденцией, мы бы ожидали, что оно будет распространяться более равномерно. Вместо этого он был сгруппирован в части системы, явно оптимизированной для игривого, занудного стиля. На Nerdy приходилось только 2,5% всех ответов ChatGPT, но 66,7% всех упоминаний «гоблина» в ответах ChatGPT.

Гоблины увеличились в GPT-5.4, особенно для личности индейки

-200%0%1,000%2,000%3,000%4,000%Изменение скорости сообщений помощников, содержащих «гоблин», с GPT-5.2 на GPT-5.4ДефолтНердиПричудливыйЦиничныйДружелюбныйЭффективныйОткровенныйПрофессиональныйЛичность ChatGPT-3,2%+3881.4%+265.0%+452,9%-6,9%+73,5%+737.3%+63,8%

Поведение было высоко сконцентрировано в «нердской» личности.

Поскольку распространенность «гоблина», казалось, увеличивалась по сравнению с нашими модельными выпусками, у нас было подозрение, что что-то в нашем обучении, последовательном за обучением личности, усиливает это.

Кодекс помог нам сравнить результаты модели, полученные во время обучения RL, содержащие гоблин или гремлин, с выходами от той же задачи, которая этого не делала. Один сигнал вознаграждения сразу выделялся: тот, который первоначально был разработан для поощрения личности ботаников, был неизменно более благоприятен для выводов из слова существ. Во всех наборах данных в аудите награда за личность Nerdy показала явную тенденцию оценивать выходы к той же проблеме с «гоблином» или «гремлином» выше, чем выходы без, с положительным подъемом в 76,2% наборов данных.

Это объяснило, почему поведение было усилено с помощью подсказки личности Nerdy, но не почему оно также появилось без этой подсказки. Чтобы проверить, переносился ли стиль, мы отследили показатели упоминаний по сравнению с тренировками как с подсказкой Nerdy, так и без нее.

Обучающие беседы с личностью Nerdy

00,20,40,60,81Прогресс в подготовке кадров00,51Распространенность «гоблина» или «гремлина»

Тренировочные беседы БЕЗ личности ботаника

00,20,40,60,81Прогресс в подготовке кадров00.050.1Распространенность «гоблина» или «гремлина»

Поскольку упоминания о гоблине и гремлинах увеличивались при личности индейки, они увеличивались почти на одну и ту же относительную долю в образцах без него. Взятые вместе, данные свидетельствуют о том, что более широкое поведение возникло благодаря передаче от обучения личности Нерди.

Вознаграждение применялось только в состоянии ботаника, но обучение с подкреплением не гарантирует, что приобретенное поведение остается аккуратным до состояния, которое их произвело. Как только стиль будет вознагражден, более позднее обучение может распространить или усилить его в другом месте, особенно если эти результаты повторно используются в контролируемых данных о тонкой настройке или предпочтениях.

Это создает петлю обратной связи:

  1. Игривый стиль вознаграждается
  2. Некоторые вознаграждаемые примеры содержат отличительный лексический тик.
  3. Рик появляется чаще в раскатках.
  4. Развертывание, созданное моделью, используется для контролируемой тонкой настройки (SFT).
  5. Модель становится еще более комфортной, производя тик.

Поиск по данным GPT-5.5 SFT обнаружил множество точек данных, содержащих «гоблин» и «гремлин». Дальнейшее исследование выявило целое семейство других странных существ: еноты, тролли, огры и голуби были идентифицированы как другие тиковые слова, в то время как большинство применений лягушки оказались законными.

ChatGPT беседы с «гоблином» или «гремлином»

СепОктНовДекЯнФевральМарАпрMay00.0050,01Мы удалили "Нерди"Личность17 марта.GPT-5 МышлениеGPT-5.1 МышлениеGPT-5.2 МышлениеGPT-5.4 МышлениеGPT-5.5 Мышление

Одна неделя средней распространенности производства гоблинов и гремлинов. Падение GPT-5.4 Мышление было результатом ухода в отставку личности «Нерди» в середине марта. GPT-5.5 никогда не запускался с личностью «Nerdy» и показал еще одно увеличение по сравнению с GPT-5.4 (даже без «Nerdy»).

Конец гоблинов

Мы удалили личность «Nerdy» в марте после запуска GPT-54. На тренировках мы удалили сигнал вознаграждения гоблина и отфильтрованные данные о тренировках, содержащие слова о существах, что делает гоблинов менее склонными к чрезмерному появлению или появляться в неподходящих контекстах. К сожалению, GPT-5.5 начал тренироваться до того, как мы нашли первопричину гоблинов. Когда мы начали тестировать GPT-5.5 в Codex, сотрудники OpenAI сразу заметили странную близость к гоблинам, и мы добавили разработчик-операторская инструкция?(открывается в новом окне) Чтобы смягчить. Кодекс, в конце концов, довольно занудный.

Если вы хотите, чтобы существа работали бесплатно в Кодексе, вы можете запустить эту команду для запуска Codex с удаленными инструкциями по подавлению гоблинов:

Простой текст


1

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) &&

2

jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions'

3

~/.codex/models_cache.json |

4

grep -vi 'goblins' > "$instructions" &&

5

codex -m gpt-5.5 -c "model_instructions_file="$instructions""

Почему это важно

В зависимости от того, кого вы спросите, гоблины - восхитительная или раздражающая причуда модели. Но они также являются ярким примером того, как сигналы вознаграждения могут формировать модельное поведение неожиданными способами, и как модели могут научиться обобщать вознаграждения в определенных ситуациях до несвязанных. Потратьте время, чтобы понять, почему модель ведет себя странным образом, и быстрое исследование этих моделей является важной возможностью для нашей исследовательской группы. Это исследование привело к появлению новых инструментов для исследовательской группы для аудита поведения модели и устранения проблем поведения в их корне.


Телеграм: t.me/ainewsline

Источник: openai.com

Комментарии: