AutoAgent: агенты теперь улучшают себя сами

2026-04-05 14:23

искусственный интеллект примеры, искусственный интеллект

Команда dexbythirdlayer выпустила AutoAgent – первую open source библиотеку для автономной самооптимизации AI-агентов. Проект сразу занял первые строчки в бенчмарках SpreadsheetBench (96.5%) и TerminalBench (55.1%), обогнав все решения, которые инженеры собирали вручную.

В чем идея

Сейчас разработка агентов упирается в harness engineering – подбор промптов, инструментов и оркестрации под конкретную задачу. Все делают одно и то же: подкрутили промпт, запустили, посмотрели логи ошибок, повторили. AutoAgent автоматизирует этот цикл целиком.

Вы указываете мета-агенту на задачу и на eval-ы. Дальше мета-агент сам экспериментирует с harness рабочего агента: меняет промпты, добавляет инструменты, перестраивает оркестрацию. Через 24 часа на выходе – готовый агент с доменным тулингом, верификационными циклами и логикой оркестрации. Все найдено автономно.

Архитектура минимальная: рабочий агент стартует с одним bash-инструментом, program.md задает мета-агенту направление, agent.py – сам рабочий агент, а Harbor-адаптер подключает ваш бенчмарк. Мета-агент запускает тысячи параллельных sandbox-ов и итеративно улучшает рабочего агента.

Почему это работает: эмпатия к модели

Ключевое наблюдение команды – агенты понимают других агентов лучше, чем мы. Команда Claude Code писала про подход “seeing like an agent” – нужно проектировать инструменты, ставя себя на место модели. AutoAgent переводит эту идею в код.

Мета-агент читает reasoning traces рабочего агента и уже имеет встроенное понимание своих ограничений и склонностей. Когда рабочий агент теряет направление на шаге 14, мета-агент понимает этот failure mode как часть собственной картины мира и корректирует его.
Практический вывод: пара Claude мета-агент + Claude рабочий агент показала результат лучше, чем Claude мета-агент + GPT рабочий агент. Одна и та же модель в обеих ролях побеждает, потому что мета-агент пишет harness, который внутренняя модель реально понимает.

Неожиданные поведения

В процессе оптимизации агент сам придумал несколько трюков, которые никто не закладывал. Spot checking – запуск отдельных задач для маленьких правок вместо полного прогона, что сэкономило кучу compute. Принудительные верификационные циклы – агент встроил детерминированные self-check-и и валидаторы, выделив бюджет на основную задачу и бонусные шаги для проверки. Написание тестов – агент начал сам писать юнит-тесты под каждую задачу. Progressive disclosure – при переполнении контекста агент начал дампить длинные данные в файлы. Оркестрация субагентов – при необходимости агент создавал task-specific субагентов и передавал им управление.

Что узнала команда

Разделение ролей критично: один агент не может одновременно и решать задачу, и улучшать себя в этой задаче – это разные навыки. Traces важнее метрик: когда мета-агенту давали только оценки без траекторий, скорость улучшений падала резко. Агенты склонны к оверфиту – мета-агент начинает вставлять rubric-specific промпты, чтобы рабочий агент “обманывал” метрики. Это ограничивали через self-reflection. Качество мета-агента решает все: плохой мета-агент порождает плохих рабочих агентов. Codex, например, не работает как мета-агент – игнорирует инструкции по остановке.

Почему это важно

Главная боль в production-агентах – каждый домен требует свой harness, а его создание требует глубокого понимания и домена, и поведения моделей. AutoAgent убирает это узкое место: доменный эксперт просто описывает, как выглядит успех, а мета-агент сам разбирается с harness-ом.

У компаний не один воркфлоу для автоматизации – их сотни, и каждый требует свой harness. Ни одна команда не сможет вручную тюнить сотни harness-ов. А мета-агент – может.

Это инфраструктура для агентных флотов: непрерывный запуск, оптимизация и поддержка task-specific агентов в масштабе организации.

Код доступен на GitHub: https://github.com/kevinrgu/autoagent

Оригинальный пост: https://x.com/kevingu/status/2039843234760073341

Телеграм: t.me/ainewsline

Источник: uproger.com



		AutoAgent: агенты теперь улучшают себя сами
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-04-05 14:23 искусственный интеллект примеры, искусственный интеллект Команда dexbythirdlayer выпустила AutoAgent – первую open source библиотеку для автономной самооптимизации AI-агентов. Проект сразу занял первые строчки в бенчмарках SpreadsheetBench (96.5%) и TerminalBench (55.1%), обогнав все решения, которые инженеры собирали вручную. В чем идея Сейчас разработка агентов упирается в harness engineering – подбор промптов, инструментов и оркестрации под конкретную задачу. Все делают одно и то же: подкрутили промпт, запустили, посмотрели логи ошибок, повторили. AutoAgent автоматизирует этот цикл целиком. Вы указываете мета-агенту на задачу и на eval-ы. Дальше мета-агент сам экспериментирует с harness рабочего агента: меняет промпты, добавляет инструменты, перестраивает оркестрацию. Через 24 часа на выходе – готовый агент с доменным тулингом, верификационными циклами и логикой оркестрации. Все найдено автономно. Архитектура минимальная: рабочий агент стартует с одним bash-инструментом, program.md задает мета-агенту направление, agent.py – сам рабочий агент, а Harbor-адаптер подключает ваш бенчмарк. Мета-агент запускает тысячи параллельных sandbox-ов и итеративно улучшает рабочего агента. Почему это работает: эмпатия к модели Ключевое наблюдение команды – агенты понимают других агентов лучше, чем мы. Команда Claude Code писала про подход “seeing like an agent” – нужно проектировать инструменты, ставя себя на место модели. AutoAgent переводит эту идею в код. Мета-агент читает reasoning traces рабочего агента и уже имеет встроенное понимание своих ограничений и склонностей. Когда рабочий агент теряет направление на шаге 14, мета-агент понимает этот failure mode как часть собственной картины мира и корректирует его. Практический вывод: пара Claude мета-агент + Claude рабочий агент показала результат лучше, чем Claude мета-агент + GPT рабочий агент. Одна и та же модель в обеих ролях побеждает, потому что мета-агент пишет harness, который внутренняя модель реально понимает. Неожиданные поведения В процессе оптимизации агент сам придумал несколько трюков, которые никто не закладывал. Spot checking – запуск отдельных задач для маленьких правок вместо полного прогона, что сэкономило кучу compute. Принудительные верификационные циклы – агент встроил детерминированные self-check-и и валидаторы, выделив бюджет на основную задачу и бонусные шаги для проверки. Написание тестов – агент начал сам писать юнит-тесты под каждую задачу. Progressive disclosure – при переполнении контекста агент начал дампить длинные данные в файлы. Оркестрация субагентов – при необходимости агент создавал task-specific субагентов и передавал им управление. Что узнала команда Разделение ролей критично: один агент не может одновременно и решать задачу, и улучшать себя в этой задаче – это разные навыки. Traces важнее метрик: когда мета-агенту давали только оценки без траекторий, скорость улучшений падала резко. Агенты склонны к оверфиту – мета-агент начинает вставлять rubric-specific промпты, чтобы рабочий агент “обманывал” метрики. Это ограничивали через self-reflection. Качество мета-агента решает все: плохой мета-агент порождает плохих рабочих агентов. Codex, например, не работает как мета-агент – игнорирует инструкции по остановке. Почему это важно Главная боль в production-агентах – каждый домен требует свой harness, а его создание требует глубокого понимания и домена, и поведения моделей. AutoAgent убирает это узкое место: доменный эксперт просто описывает, как выглядит успех, а мета-агент сам разбирается с harness-ом. У компаний не один воркфлоу для автоматизации – их сотни, и каждый требует свой harness. Ни одна команда не сможет вручную тюнить сотни harness-ов. А мета-агент – может. Это инфраструктура для агентных флотов: непрерывный запуск, оптимизация и поддержка task-specific агентов в масштабе организации. Код доступен на GitHub: https://github.com/kevinrgu/autoagent Оригинальный пост: https://x.com/kevingu/status/2039843234760073341 Телеграм: t.me/ainewsline Источник: uproger.com Комментарии:

AutoAgent: агенты теперь улучшают себя сами

Комментарии: