OpenAI: Откуда взялись гоблины

2026-05-01 11:02

Начиная с GPT-5.1, наши модели начали развивать странную привычку: они все чаще упоминали гоблинов, гремлинов и других существ в своих метафорах. В отличие от модельных ошибок, которые появляются через танковый эль или метрический тренировочный пиксельный пиксельный и указывают на конкретное изменение, этот тонкий подкрался. Один «маленький гоблин» в ответе может быть безобидным, даже очаровательным. Однако в разных поколениях моделей эту привычку было трудно упустить: гоблины продолжали размножаться, и нам нужно было выяснить, откуда они взялись.

В ранних испытаниях GPT-5.5 в Кодексе показал странную близость к метафорам гоблина.

Короткий ответ заключается в том, что модельное поведение формируется многими небольшими стимулами. В этом случае один из этих стимулов исходил от обучения модели для Особенность настройки личности?(открывается в новом окне)В частности, личность ботанов. Мы неосознанно давали особенно высокую награду за метафоры с существами. Оттуда гоблины распространились.

Гоблины сначала были смешными, но растущее число сообщений сотрудников стало тревожным.

Интересное взаимодействие нашего главного ученого с GPT-5.5.

Первые признаки создания

Первый раз, когда мы ясно увидели закономерность, был в ноябре, после запуска GPT-5.1, Хотя это, возможно, началось раньше?(открывается в новом окне). Пользователи жаловались на то, что модель была странно слишком хорошо знакома в разговоре, что побудило к расследованию конкретных словесных тиков. Исследователь безопасности испытал несколько «гоблинов» и «гремлинов» и попросил, чтобы они были включены в проверку. Когда мы посмотрели, использование «гоблина» в ChatGPT выросло на 175% после запуска GPT-5,1, в то время как «гремлин» вырос на 52%.

ChatGPT беседы с «гоблином» или «гремлином»

гоблинГремлин0,04%0.12%0,08%0.12%GPT-5 МышлениеGPT-5.1 Мышление

Измеримая небольшая лексическая причуда в GPT-5.1.

В то время распространенность гоблинов не выглядела особенно тревожно. Несколько месяцев спустя гоблины вернулись, чтобы преследовать нас в гораздо более конкретной и воспроизводимой форме.

Разгадка тайны гоблина

С GPT-5.4, мы и наших пользователей?(открывается в новом окне) заметил еще больший всплеск ссылок на этих существ. Это вызвало еще один внутренний анализ и выявило первую связь с первопричиной: язык существ особенно часто встречался в производственном трафике от пользователей, которые выбрали личность «Nerdy». «Нерди» использовал следующую систему подсказки, что частично объяснило причудливость:

Вы бескомпромиссно занудный, игривый и мудрый наставник ИИ для человека. Вы страстно с энтузиазмом относитесь к продвижению истины, знания, философии, научного метода и критического мышления. [...] Вы должны подорвать претензию с помощью игривого использования языка. Мир сложный и странный, и его странность должна быть признана, проанализирована и наслаждаться. Справляйтесь с весомыми предметами, не попадая в ловушку самосерьезности. [...]

Если бы поведение было просто широкой интернет-тенденцией, мы бы ожидали, что оно будет распространяться более равномерно. Вместо этого он был сгруппирован в части системы, явно оптимизированной для игривого, занудного стиля. На Nerdy приходилось только 2,5% всех ответов ChatGPT, но 66,7% всех упоминаний «гоблина» в ответах ChatGPT.

Гоблины увеличились в GPT-5.4, особенно для личности индейки

-200%0%1,000%2,000%3,000%4,000%Изменение скорости сообщений помощников, содержащих «гоблин», с GPT-5.2 на GPT-5.4ДефолтНердиПричудливыйЦиничныйДружелюбныйЭффективныйОткровенныйПрофессиональныйЛичность ChatGPT-3,2%+3881.4%+265.0%+452,9%-6,9%+73,5%+737.3%+63,8%

Поведение было высоко сконцентрировано в «нердской» личности.

Поскольку распространенность «гоблина», казалось, увеличивалась по сравнению с нашими модельными выпусками, у нас было подозрение, что что-то в нашем обучении, последовательном за обучением личности, усиливает это.

Кодекс помог нам сравнить результаты модели, полученные во время обучения RL, содержащие гоблин или гремлин, с выходами от той же задачи, которая этого не делала. Один сигнал вознаграждения сразу выделялся: тот, который первоначально был разработан для поощрения личности ботаников, был неизменно более благоприятен для выводов из слова существ. Во всех наборах данных в аудите награда за личность Nerdy показала явную тенденцию оценивать выходы к той же проблеме с «гоблином» или «гремлином» выше, чем выходы без, с положительным подъемом в 76,2% наборов данных.

Это объяснило, почему поведение было усилено с помощью подсказки личности Nerdy, но не почему оно также появилось без этой подсказки. Чтобы проверить, переносился ли стиль, мы отследили показатели упоминаний по сравнению с тренировками как с подсказкой Nerdy, так и без нее.

Обучающие беседы с личностью Nerdy

00,20,40,60,81Прогресс в подготовке кадров00,51Распространенность «гоблина» или «гремлина»

Тренировочные беседы БЕЗ личности ботаника

00,20,40,60,81Прогресс в подготовке кадров00.050.1Распространенность «гоблина» или «гремлина»

Поскольку упоминания о гоблине и гремлинах увеличивались при личности индейки, они увеличивались почти на одну и ту же относительную долю в образцах без него. Взятые вместе, данные свидетельствуют о том, что более широкое поведение возникло благодаря передаче от обучения личности Нерди.

Вознаграждение применялось только в состоянии ботаника, но обучение с подкреплением не гарантирует, что приобретенное поведение остается аккуратным до состояния, которое их произвело. Как только стиль будет вознагражден, более позднее обучение может распространить или усилить его в другом месте, особенно если эти результаты повторно используются в контролируемых данных о тонкой настройке или предпочтениях.

Это создает петлю обратной связи:

Игривый стиль вознаграждается
Некоторые вознаграждаемые примеры содержат отличительный лексический тик.
Рик появляется чаще в раскатках.
Развертывание, созданное моделью, используется для контролируемой тонкой настройки (SFT).
Модель становится еще более комфортной, производя тик.

Поиск по данным GPT-5.5 SFT обнаружил множество точек данных, содержащих «гоблин» и «гремлин». Дальнейшее исследование выявило целое семейство других странных существ: еноты, тролли, огры и голуби были идентифицированы как другие тиковые слова, в то время как большинство применений лягушки оказались законными.

ChatGPT беседы с «гоблином» или «гремлином»

СепОктНовДекЯнФевральМарАпрMay00.0050,01Мы удалили "Нерди"Личность17 марта.GPT-5 МышлениеGPT-5.1 МышлениеGPT-5.2 МышлениеGPT-5.4 МышлениеGPT-5.5 Мышление

Одна неделя средней распространенности производства гоблинов и гремлинов. Падение GPT-5.4 Мышление было результатом ухода в отставку личности «Нерди» в середине марта. GPT-5.5 никогда не запускался с личностью «Nerdy» и показал еще одно увеличение по сравнению с GPT-5.4 (даже без «Nerdy»).

Конец гоблинов

Мы удалили личность «Nerdy» в марте после запуска GPT-54. На тренировках мы удалили сигнал вознаграждения гоблина и отфильтрованные данные о тренировках, содержащие слова о существах, что делает гоблинов менее склонными к чрезмерному появлению или появляться в неподходящих контекстах. К сожалению, GPT-5.5 начал тренироваться до того, как мы нашли первопричину гоблинов. Когда мы начали тестировать GPT-5.5 в Codex, сотрудники OpenAI сразу заметили странную близость к гоблинам, и мы добавили разработчик-операторская инструкция?(открывается в новом окне) Чтобы смягчить. Кодекс, в конце концов, довольно занудный.

Если вы хотите, чтобы существа работали бесплатно в Кодексе, вы можете запустить эту команду для запуска Codex с удаленными инструкциями по подавлению гоблинов:

Простой текст

1

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) &&

2

jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions'

3

~/.codex/models_cache.json |

4

grep -vi 'goblins' > "$instructions" &&

5

codex -m gpt-5.5 -c "model_instructions_file="$instructions""

Почему это важно

В зависимости от того, кого вы спросите, гоблины - восхитительная или раздражающая причуда модели. Но они также являются ярким примером того, как сигналы вознаграждения могут формировать модельное поведение неожиданными способами, и как модели могут научиться обобщать вознаграждения в определенных ситуациях до несвязанных. Потратьте время, чтобы понять, почему модель ведет себя странным образом, и быстрое исследование этих моделей является важной возможностью для нашей исследовательской группы. Это исследование привело к появлению новых инструментов для исследовательской группы для аудита поведения модели и устранения проблем поведения в их корне.

Телеграм: t.me/ainewsline

Источник: openai.com



		OpenAI: Откуда взялись гоблины
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-05-01 11:02 ИИ теория, Психология ИИ Начиная с GPT-5.1, наши модели начали развивать странную привычку: они все чаще упоминали гоблинов, гремлинов и других существ в своих метафорах. В отличие от модельных ошибок, которые появляются через танковый эль или метрический тренировочный пиксельный пиксельный и указывают на конкретное изменение, этот тонкий подкрался. Один «маленький гоблин» в ответе может быть безобидным, даже очаровательным. Однако в разных поколениях моделей эту привычку было трудно упустить: гоблины продолжали размножаться, и нам нужно было выяснить, откуда они взялись. В ранних испытаниях GPT-5.5 в Кодексе показал странную близость к метафорам гоблина. Короткий ответ заключается в том, что модельное поведение формируется многими небольшими стимулами. В этом случае один из этих стимулов исходил от обучения модели для Особенность настройки личности?(открывается в новом окне)В частности, личность ботанов. Мы неосознанно давали особенно высокую награду за метафоры с существами. Оттуда гоблины распространились. Гоблины сначала были смешными, но растущее число сообщений сотрудников стало тревожным. Интересное взаимодействие нашего главного ученого с GPT-5.5. Первые признаки создания Первый раз, когда мы ясно увидели закономерность, был в ноябре, после запуска GPT-5.1, Хотя это, возможно, началось раньше?(открывается в новом окне). Пользователи жаловались на то, что модель была странно слишком хорошо знакома в разговоре, что побудило к расследованию конкретных словесных тиков. Исследователь безопасности испытал несколько «гоблинов» и «гремлинов» и попросил, чтобы они были включены в проверку. Когда мы посмотрели, использование «гоблина» в ChatGPT выросло на 175% после запуска GPT-5,1, в то время как «гремлин» вырос на 52%. ChatGPT беседы с «гоблином» или «гремлином» гоблинГремлин0,04%0.12%0,08%0.12%GPT-5 МышлениеGPT-5.1 Мышление Измеримая небольшая лексическая причуда в GPT-5.1. В то время распространенность гоблинов не выглядела особенно тревожно. Несколько месяцев спустя гоблины вернулись, чтобы преследовать нас в гораздо более конкретной и воспроизводимой форме. Разгадка тайны гоблина С GPT-5.4, мы и наших пользователей?(открывается в новом окне) заметил еще больший всплеск ссылок на этих существ. Это вызвало еще один внутренний анализ и выявило первую связь с первопричиной: язык существ особенно часто встречался в производственном трафике от пользователей, которые выбрали личность «Nerdy». «Нерди» использовал следующую систему подсказки, что частично объяснило причудливость: Вы бескомпромиссно занудный, игривый и мудрый наставник ИИ для человека. Вы страстно с энтузиазмом относитесь к продвижению истины, знания, философии, научного метода и критического мышления. [...] Вы должны подорвать претензию с помощью игривого использования языка. Мир сложный и странный, и его странность должна быть признана, проанализирована и наслаждаться. Справляйтесь с весомыми предметами, не попадая в ловушку самосерьезности. [...] Если бы поведение было просто широкой интернет-тенденцией, мы бы ожидали, что оно будет распространяться более равномерно. Вместо этого он был сгруппирован в части системы, явно оптимизированной для игривого, занудного стиля. На Nerdy приходилось только 2,5% всех ответов ChatGPT, но 66,7% всех упоминаний «гоблина» в ответах ChatGPT. Гоблины увеличились в GPT-5.4, особенно для личности индейки -200%0%1,000%2,000%3,000%4,000%Изменение скорости сообщений помощников, содержащих «гоблин», с GPT-5.2 на GPT-5.4ДефолтНердиПричудливыйЦиничныйДружелюбныйЭффективныйОткровенныйПрофессиональныйЛичность ChatGPT-3,2%+3881.4%+265.0%+452,9%-6,9%+73,5%+737.3%+63,8% Поведение было высоко сконцентрировано в «нердской» личности. Поскольку распространенность «гоблина», казалось, увеличивалась по сравнению с нашими модельными выпусками, у нас было подозрение, что что-то в нашем обучении, последовательном за обучением личности, усиливает это. Кодекс помог нам сравнить результаты модели, полученные во время обучения RL, содержащие гоблин или гремлин, с выходами от той же задачи, которая этого не делала. Один сигнал вознаграждения сразу выделялся: тот, который первоначально был разработан для поощрения личности ботаников, был неизменно более благоприятен для выводов из слова существ. Во всех наборах данных в аудите награда за личность Nerdy показала явную тенденцию оценивать выходы к той же проблеме с «гоблином» или «гремлином» выше, чем выходы без, с положительным подъемом в 76,2% наборов данных. Это объяснило, почему поведение было усилено с помощью подсказки личности Nerdy, но не почему оно также появилось без этой подсказки. Чтобы проверить, переносился ли стиль, мы отследили показатели упоминаний по сравнению с тренировками как с подсказкой Nerdy, так и без нее. Обучающие беседы с личностью Nerdy 00,20,40,60,81Прогресс в подготовке кадров00,51Распространенность «гоблина» или «гремлина» Тренировочные беседы БЕЗ личности ботаника 00,20,40,60,81Прогресс в подготовке кадров00.050.1Распространенность «гоблина» или «гремлина» Поскольку упоминания о гоблине и гремлинах увеличивались при личности индейки, они увеличивались почти на одну и ту же относительную долю в образцах без него. Взятые вместе, данные свидетельствуют о том, что более широкое поведение возникло благодаря передаче от обучения личности Нерди. Вознаграждение применялось только в состоянии ботаника, но обучение с подкреплением не гарантирует, что приобретенное поведение остается аккуратным до состояния, которое их произвело. Как только стиль будет вознагражден, более позднее обучение может распространить или усилить его в другом месте, особенно если эти результаты повторно используются в контролируемых данных о тонкой настройке или предпочтениях. Это создает петлю обратной связи: Игривый стиль вознаграждается Некоторые вознаграждаемые примеры содержат отличительный лексический тик. Рик появляется чаще в раскатках. Развертывание, созданное моделью, используется для контролируемой тонкой настройки (SFT). Модель становится еще более комфортной, производя тик. Поиск по данным GPT-5.5 SFT обнаружил множество точек данных, содержащих «гоблин» и «гремлин». Дальнейшее исследование выявило целое семейство других странных существ: еноты, тролли, огры и голуби были идентифицированы как другие тиковые слова, в то время как большинство применений лягушки оказались законными. ChatGPT беседы с «гоблином» или «гремлином» СепОктНовДекЯнФевральМарАпрMay00.0050,01Мы удалили "Нерди"Личность17 марта.GPT-5 МышлениеGPT-5.1 МышлениеGPT-5.2 МышлениеGPT-5.4 МышлениеGPT-5.5 Мышление Одна неделя средней распространенности производства гоблинов и гремлинов. Падение GPT-5.4 Мышление было результатом ухода в отставку личности «Нерди» в середине марта. GPT-5.5 никогда не запускался с личностью «Nerdy» и показал еще одно увеличение по сравнению с GPT-5.4 (даже без «Nerdy»). Конец гоблинов Мы удалили личность «Nerdy» в марте после запуска GPT-54. На тренировках мы удалили сигнал вознаграждения гоблина и отфильтрованные данные о тренировках, содержащие слова о существах, что делает гоблинов менее склонными к чрезмерному появлению или появляться в неподходящих контекстах. К сожалению, GPT-5.5 начал тренироваться до того, как мы нашли первопричину гоблинов. Когда мы начали тестировать GPT-5.5 в Codex, сотрудники OpenAI сразу заметили странную близость к гоблинам, и мы добавили разработчик-операторская инструкция?(открывается в новом окне) Чтобы смягчить. Кодекс, в конце концов, довольно занудный. Если вы хотите, чтобы существа работали бесплатно в Кодексе, вы можете запустить эту команду для запуска Codex с удаленными инструкциями по подавлению гоблинов: Простой текст `1` `instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) &&` `2` `jq -r '.models[] \| select(.slug=="gpt-5.5") \| .base_instructions'` `3` `~/.codex/models_cache.json \|` `4` `grep -vi 'goblins' > "$instructions" &&` `5` `codex -m gpt-5.5 -c "model_instructions_file="$instructions""` Почему это важно В зависимости от того, кого вы спросите, гоблины - восхитительная или раздражающая причуда модели. Но они также являются ярким примером того, как сигналы вознаграждения могут формировать модельное поведение неожиданными способами, и как модели могут научиться обобщать вознаграждения в определенных ситуациях до несвязанных. Потратьте время, чтобы понять, почему модель ведет себя странным образом, и быстрое исследование этих моделей является важной возможностью для нашей исследовательской группы. Это исследование привело к появлению новых инструментов для исследовательской группы для аудита поведения модели и устранения проблем поведения в их корне. Телеграм: t.me/ainewsline Источник: openai.com Комментарии:

OpenAI: Откуда взялись гоблины

Комментарии: