AutoAgent: агенты теперь улучшают себя сами

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Команда dexbythirdlayer выпустила AutoAgent – первую open source библиотеку для автономной самооптимизации AI-агентов. Проект сразу занял первые строчки в бенчмарках SpreadsheetBench (96.5%) и TerminalBench (55.1%), обогнав все решения, которые инженеры собирали вручную.

В чем идея

Сейчас разработка агентов упирается в harness engineering – подбор промптов, инструментов и оркестрации под конкретную задачу. Все делают одно и то же: подкрутили промпт, запустили, посмотрели логи ошибок, повторили. AutoAgent автоматизирует этот цикл целиком.

Вы указываете мета-агенту на задачу и на eval-ы. Дальше мета-агент сам экспериментирует с harness рабочего агента: меняет промпты, добавляет инструменты, перестраивает оркестрацию. Через 24 часа на выходе – готовый агент с доменным тулингом, верификационными циклами и логикой оркестрации. Все найдено автономно.

Архитектура минимальная: рабочий агент стартует с одним bash-инструментом, program.md задает мета-агенту направление, agent.py – сам рабочий агент, а Harbor-адаптер подключает ваш бенчмарк. Мета-агент запускает тысячи параллельных sandbox-ов и итеративно улучшает рабочего агента.

Почему это работает: эмпатия к модели

Ключевое наблюдение команды – агенты понимают других агентов лучше, чем мы. Команда Claude Code писала про подход “seeing like an agent” – нужно проектировать инструменты, ставя себя на место модели. AutoAgent переводит эту идею в код.

Мета-агент читает reasoning traces рабочего агента и уже имеет встроенное понимание своих ограничений и склонностей. Когда рабочий агент теряет направление на шаге 14, мета-агент понимает этот failure mode как часть собственной картины мира и корректирует его.
Практический вывод: пара Claude мета-агент + Claude рабочий агент показала результат лучше, чем Claude мета-агент + GPT рабочий агент. Одна и та же модель в обеих ролях побеждает, потому что мета-агент пишет harness, который внутренняя модель реально понимает.

Неожиданные поведения

В процессе оптимизации агент сам придумал несколько трюков, которые никто не закладывал. Spot checking – запуск отдельных задач для маленьких правок вместо полного прогона, что сэкономило кучу compute. Принудительные верификационные циклы – агент встроил детерминированные self-check-и и валидаторы, выделив бюджет на основную задачу и бонусные шаги для проверки. Написание тестов – агент начал сам писать юнит-тесты под каждую задачу. Progressive disclosure – при переполнении контекста агент начал дампить длинные данные в файлы. Оркестрация субагентов – при необходимости агент создавал task-specific субагентов и передавал им управление.

Что узнала команда

Разделение ролей критично: один агент не может одновременно и решать задачу, и улучшать себя в этой задаче – это разные навыки. Traces важнее метрик: когда мета-агенту давали только оценки без траекторий, скорость улучшений падала резко. Агенты склонны к оверфиту – мета-агент начинает вставлять rubric-specific промпты, чтобы рабочий агент “обманывал” метрики. Это ограничивали через self-reflection. Качество мета-агента решает все: плохой мета-агент порождает плохих рабочих агентов. Codex, например, не работает как мета-агент – игнорирует инструкции по остановке.

Почему это важно

Главная боль в production-агентах – каждый домен требует свой harness, а его создание требует глубокого понимания и домена, и поведения моделей. AutoAgent убирает это узкое место: доменный эксперт просто описывает, как выглядит успех, а мета-агент сам разбирается с harness-ом.

У компаний не один воркфлоу для автоматизации – их сотни, и каждый требует свой harness. Ни одна команда не сможет вручную тюнить сотни harness-ов. А мета-агент – может.

Это инфраструктура для агентных флотов: непрерывный запуск, оптимизация и поддержка task-specific агентов в масштабе организации.

Код доступен на GitHub: https://github.com/kevinrgu/autoagent

Оригинальный пост: https://x.com/kevingu/status/2039843234760073341


Телеграм: t.me/ainewsline

Источник: uproger.com

Комментарии: