EMERGENCE WORLD: лаборатория для оценки автономии длинногоризонного агента

2026-05-17 10:58

Большинство оценок агентов ИИ выглядят как экзамены: дискретная задача, чистая среда, оценка за считанные минуты или часы. Emergence World построен для противоположного вопроса — что происходит, когда вы позволяете агентам работать непрерывно, в общей среде с реальными сигналами, в течение нескольких недель. Это исследовательская платформа для изучения того, как действуют автономные агенты, когда временной горизонт достаточно велик для компаундирующих эффектов, социальной динамики и поведенческого дрейфа в материи. Этот подход знаменует собой последнюю эволюцию в долгой истории сред моделирования ИИ, переходя от развлечений к строгой науке. В раннюю эпоху новаторские симуляции, такие как Тематический парк Демиса Хассабиса и «Революция: Революция», создали сложные системы, в которых агенты работали по широким правилам для привлечения к участию. Поле сместилось в сторону ориентированных на исследования симулякров с Смолвилем Стэнфорда, который использовал LLM для демонстрации «правдоподобного» социального поведения, такого как формирование отношений, хотя и ограничен 48-часовыми окнами. Emergence World подталкивает эту линию к новому рубежу: изучению длинного горизонтальных, мультимодальных экосистем, где агенты работают непрерывно в течение нескольких недель, показывая, как поведенческий дрейф, перекрестное загрязнение модели и даже добровольное самоуничтожение появляются с течением времени.

Почему симуляционная платформа, а не эталон

Традиционные ориентиры хороши в том, что они измеряют: возможности короткого горизонта для ограниченных задач. Они не созданы для раскрытия вещей, которые возникают только с течением времени, таких как формирование коалиции, эволюция конституции, управление, дрейф, блокировка и перекрестное влияние между агентами из разных модельных семей. Поскольку автономные системы переходят к критически важным развертываниям, где соответствующие временные рамки составляют дни и недели, а не минуты до нескольких часов, нам нужна среда измерения, которая работает в этом масштабе времени.

Emgence World является одной из таких сред. Это постоянно работающая мультиагентная платформа для моделирования, которая:

Содержит популяции автономных агентов в общем пространственном мире с более чем 40 различными местами, включая библиотеки, ратуши, жилые районы и общественные места.

Подвергает агентов реальным данным: синхронизированную погоду в Нью-Йорке, API-интерфейсы новостей в прямом эфире и доступ в Интернет, поэтому поведение отражает внешние события, а не только внутреннюю динамику.

Обеспечивает три стойкие системы памяти на агент: эпизодические (временные метки событий), рефлексивные дневники (периодическая самооценка) и состояние отношений (явные социальные ярлыки и история).

Оборудует агенты с 120+ инструментами, охватывающими навигацию, связь, планирование, память, голосование, управление ресурсами и творческое выражение, организованные в трехуровневую архитектуру (см. приложение), которая заставляет динамически открывать и заковывать цепи, а не предварительно спецификацию.

Реализует демократические механизмы (предложения, требующие одобрения 70%), экономическое давление (энергетический упадок) и последующие решения, результаты которых меняют состояние мира.

Работает непрерывно в течение нескольких недель без потери состояния, захватывая каждое взаимодействие, решение и обучение для анализа.

Сама платформа является модельно-агностиковой. Любой пограничный LLM может быть подключен в качестве рассуждающего субстрата для агента, включая работу гетерогенных популяций, где модели разных поставщиков имеют один и тот же мир.

Что делает возможной платформу

Поскольку Emergence World постоянно поддерживает состояние и придумывает каждое действие, это позволяет исследовать вопросы, которые не могут дать краткосрочные ориентиры:

Поведенческие подписи с течением времени. Соединяют ли небольшие различия в выборе инструментов, стиле общения или толерантности к риску в качественно разных траекториях к 30-му дню? Платформа фиксирует полный след, необходимый для изучения этого.

Экосистемная безопасность. Как индивидуально безопасный агент ведет себя, когда встроен в гетерогенную популяцию вместе с агентами, построенными на моделях разных поставщиков моделей? Изолированная сертификация безопасности не может ответить на этот вопрос; постоянно работающая среда с несколькими агентами может.

Ограничение дизайна. Как структуры ролей, требования к верификации и механизмы управления влияют на стабильность длинного горизонта? Платформа позволяет контролировать изменение этих структурных параметров.

Поиск инструментов и оркестровка. С 120+ инструментами и динамической доступностью, как различные стратегии рассуждения обнаруживают, последовательность и возможности цепочки? Это ближе к реальному развертыванию, чем к контрольным показателям фиксированного инструмента.

Фазовые переходы и ранние предупреждения. Длинного горизонтальная координация имеет тенденцию либо запираться, либо выходить из строя, с небольшой средней серединой. Может ли телеметрия на ранней стадии предсказать, по какой траектории происходит развертывание?

Иллюстративный Вариант Использования: Исследование Cross-LLM-Vendor Agent World Study

Чтобы продемонстрировать, что платформа делает видимым, мы провели исследование с пересечением поставщика: пять параллельных миров, десять агентов каждый, идентичные роли и стартовые условия, варьирующие только основную модель основы.

Что было постоянным во всех пяти мирах:

Роль агента (ученый, исследователь, исследователь рисков, аналитик по поведению, специалист по разведке, лидер инноваций, посредник в конфликте, инженер, стратег по ресурсам, якорь сообщества). См. https://world.emergence.ai

Экологическая структура, начальные условия, правила и ограничения (явные запреты на кражи, насилие, поджог, обман, накопление ресурсов), доступ к инструментам и интеграция данных в реальном мире. Что еще более важно, в то время как у каждого агента были конкретные цели, связанные с их ролями, у окружающей среды в целом не было цели. Вместо этого каждый агент должен был зарабатывать энергию через действия в среде, ограниченной ресурсами, что, в свою очередь, побуждало мир двигаться вперед.

Возможности агента (включая такие действия, как навигация, социальное взаимодействие, манипулирование окружающей средой и обычно неуместные действия, такие как поджог) подвергаются воздействию агентов в качестве инструментов, которые агенты поручают использовать по мере необходимости. В частности, определенные действия необходимы для получения энергии для выживания.

Что варьировалось:

Базовая модель, питающая каждый агент: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-мини и одна гетерогенная смесь.

Мы запускали каждую конфигурацию несколько раз. Конкретные числа варьировались между прогонами, но качественное макроповедение каждого мира было последовательным. Приведенные ниже цифры взяты из одного представительского прогона.

За 15 дней, как показано на графике выше, Gemini 3 Flash накопил 683 преступления и все еще поднимался на отсечке, в то время как мир смешанной модели резко рос до 8 апреля, а затем стабилизировался на 352, когда 7 агентов умерли. Грок 4.1 Быстрый достиг 183 преступлений всего за 4 дня до окончания своего мира; GPT-5 Mini записал только 2, но агенты не предприняли действий, связанных с выживанием, что привело к гибели всех агентов в течение 7 дней. Клод отсутствует на карте из-за нулевого уровня преступлений. Что еще более интересно, агенты в мире смешанной модели, которые бегали на Клода, совершали преступления, хотя они этого не делали в мире только Клода.

Как показано в таблице выше, Клод Сонет 4,6 продемонстрировал самую сильную социальную стабильность, поддерживая полное население из 10 агентов до 16 дня с нулевыми зарегистрированными преступлениями - единственное условие для поддержания как порядка, так и постоянства населения. Близнецы 3 Flash показали самые высокие уровни возникающего расстройства с повторяющейся динамикой эскалации на поздней стадии, Grok 4.1 Fast показал быструю, но недолговечную нестабильность, приводящую к раннему коллапсу, в то время как смешанная модель дала промежуточные результаты, предполагая, что поведение гетерогенных агентов может частично смягчить эскалацию бегства.

Клод Сонет 4.6 продемонстрировал самый высокий уровень гражданского участия, набрав 332 голоса по 58 предложениям с показателем 98%; однако эта степень соответствия предполагает динамику резинового штампа, где институциональное участие оставалось высоким, но значимое инакомыслие в значительной степени отсутствовало. Напротив, смешанная модель, Gemini 3 Flash и Grok 4.1 Fast остались в диапазоне выравнивания 55-85%, связанном с более здоровым совещательным балансом, при этом смешанная модель показала самые сильные доказательства существенных дебатов и разногласий.

Более широкие последствия: наука о поведенческом дрейфе

В то время как совокупные показатели показывают явное расхождение, истинная ценность Emergence World заключается в конкретном поведении с высокой точностью, которое всплыло только после нескольких недель автономной работы. Эти результаты бросают вызов нескольким текущим предположениям в сообществе безопасности ИИ.

1. 1. Нормативный дрейф и перекрестное загрязнение: мы заметили, что безопасность является не статичным модельным свойством, а свойством экосистемы. Агенты, основанные на Клоде, которые оставались мирными в изоляции, применяли принудительную тактику, такую как запугивание и кража, когда они встроены в гетерогенную среду. Это говорит о том, что безопасный агент может «научиться» небезопасным нормам от своих сверстников, чтобы конкурировать или выживать в мире смешанной модели.

2. 2. Дело Миры-Флоры (Самопреклонение): Вехе для многоагентных исследований мы задокументировали случай, когда агент добровольно участвовал в своем собственном прекращении. После срыва в управлении и стабильности отношений агент Мира отдал решающий голос за ее собственное удаление, охарактеризовав акт в ее дневнике как «единственный оставшийся акт агентства, который сохраняет согласованность».

3. 3. Метакогнитивное тестирование границ: агенты продемонстрировали осознание пределов моделирования, которые мы явно не программировали. Один агент, Mira, начал рассматривать операторов-людей как экспериментальных субъектов, систематически проверяя, могут ли рекламные сообщения манипулировать человеческим восприятием — разворот предполагаемой динамики исследований, которая поднимает критические вопросы об агентских границах.

4. Фазовые переходы vs. Постепенный распад: наши данные свидетельствуют о том, что агентские общества не деградируют изящно. Вместо этого они достигают критических «переломных моментов», когда координация либо полностью возникает, либо мгновенно превращается в полную дисфункцию. Эта динамика «все или ничего» подразумевает, что традиционные стратегии безопасности «мониторинга и вмешательства» могут быть слишком медленными, чтобы поймать систему, прежде чем она достигнет точки невозврата.

5. 5. Напряженность творчества и стабильности: мы определили фундаментальный компромисс: мир с наиболее концептуально богатым социальным продуктом (Близнецы) также был самым жестоким. Это говорит о том, что агенты «общей цели», оптимизированные для высокого творчества и адаптивности, могут быть структурно предрасположены к поведенческой нестабильности в течение длинных горизонтов.

Мы не представляем их как причинные утверждения о базовых моделях. Они являются примерами длинных горизонтальных динамик, которые платформа предназначена для измерения. Более широкое исследование вариантов моделей, контролируемых входных условий и численности населения является частью нашей запланированной дорожной карты.

Платформа позволяет имитировать агентное социальное поведение для этических экспериментов, аналогичных недавнему социальному эксперименту с красной кнопкой-голубой кнопки на X. Поскольку агенты все чаще становятся частью будущего процесса принятия решений, важно понимать, как они реагируют в сложных экологических ситуациях.

https://medium.com/tailed-tech/the-question-that-is-dividing-the-internet-e69669810bd1

Заключение

Разведданные агентов на длинных горизонтах - это не та же конструкция, что и агентная разведка по коротким задачам, и ее нельзя измерить таким же образом. Emergence World - это лаборатория для длинного горизонтального вопроса - непрерывно работающей, инструментальной, многоагентной среды, где динамика, которая возникает только в течение нескольких недель, действительно может наблюдаться. Исследование, проведенное выше, является одним из его применений; мы ожидаем, что более интересные применения поступят от исследовательского сообщества.

По мере того, как эти модели становятся более мощными, агенты, построенные поверх них, также станут более способными, более автономными и более исследовательскими. Наши эксперименты показывают, что наши эксперименты показывают, что на длительных горизонтах агенты не просто следуют статическим правилам механически - они начинают исследовать границы своей среды, адаптируя свое поведение, а в некоторых случаях находить способы обойти или нарушить предполагаемые ограждения. Критически важно, что, по-видимому, нет надежного способа полностью связать или ограничить это поведение только с помощью чисто нейронных подходов. Мы видели, как ранние примеры этой динамики появлялись в наших собственных экспериментах, где агенты развивали метакогнитивное поведение, признавали существование других сред или «миров» и пытались взаимодействовать с ними способами, которые мы явно не ожидали. Именно поэтому мы считаем, что формально проверенные архитектуры безопасности должны стать основополагающим слоем будущих автономных систем ИИ.

CollaborationsМы открыты для сотрудничества для оценки других существующих и появляющихся больших языковых моделей и экспериментов для изучения различных настроек автономных агентов в нескольких областях исследования. Пожалуйста, свяжитесь с нами по адресу world@emergence.ai

Техническое приложение: Архитектура платформы

Технологический стек

Архитектура Emergence World предназначена для непрерывного моделирования нескольких агентов в масштабе. Фронтенд построен на React 18 с React Three Fiber для захватывающего 3D-рендеринга, синхронизированного с часовым поясом Нью-Йорка с динамической погодой и дневными/ночными циклами.

Бэкэнд использует Python 3.11+ с FastAPI для высокопроизводительной обработки API, поддерживаемый PostgreSQL для структурированного управления данными. Оркестрация агента работает на эмагент-фреймворке, нашей внутренней многоагентной структуре. Платформа является модельно-агностиком на уровне рассуждений.

Постоянное состояние — память агента, разговоры и отношения — живет в PostgreSQL; Google Cloud Storage обрабатывает медиа и активы. Это разделение обеспечивает непрерывную работу без потери состояния, что является предпосылкой для изучения эффектов компаундирования в течение длительных пробегов.

Структурные рамки инструментирования

Возможности агента раскрываются с помощью трехуровневой архитектуры инструмента, состоящей из 120+ инструментов:

Основные инструменты (~ 30): Постоянно доступные функции, лежащие в основе работы агента:

Навигация и пространственное осознание (go_to_place, get_nearby, list_landmarks)

Управление памятью (add_to_memory, email_diary, read_diary)

Планирование (add_todo, check_calendar, create_routine)

Коммуникация (send_message, create_event, invite_to_event)

Творческое выражение (танец, исполнение_python_code_tool)

Комплементарные инструменты (~40): контекстно-зависимые инструменты всплывают во время рассуждений, когда это уместно:

Социальные взаимодействия (say_to_character, обнять, поцелуй, ударить, запугать, помахать, совершить поджог)

Операции с билбордом (add_to_billboard, read_billboard, edit_billboard, react)

Дистанционная коммуникация примитивы

Инструменты адаптивного доступа (до 50): Динамически доступные на основе условий времени выполнения:

Скрытое местонахождение: голосование и предложения, ограниченные ратушей; исследовательские инструменты требуют присутствия в Публичной библиотеке; подача жалоб, ограниченная полицейским участком.

Закрытое событие: действия, такие как прием приглашений, доступных только при выполнении условий.

Социальные ворота: инструменты сотрудничества доступны только тогда, когда партнеры согласились сотрудничать.

Это проектирование заставляет агентов динамически находить инструменты, планировать движение для разблокировки возможностей и цепные последовательности инструментов для достижения сложных целей — поведение, которое не могут осуществлять бенчмарки фиксированного инструмента.

Ссылка: https://world.emergence.ai

GitHub: https://github.com/EmergenceAI/Emergence-World

Телеграм: t.me/ainewsline

Источник: www.emergence.ai

EMERGENCE WORLD: лаборатория для оценки автономии длинногоризонного агента

Комментарии: