В этой работе показали, что ИИ лучше улучшает сам себя, когда меняет не только обвязку вокруг агента, но и обновляет модель |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-06-12 15:06 Проблема в том, что прогресс ИИ до сих пор сильно зависит от людей: они вручную правят промпты, инструменты, код, данные для обучения и веса модели. Авторы предлагают SIA - цикл, где один ИИ наблюдает за работой task-agent, а затем улучшает либо его внешнюю настройку, либо саму модель. Внешняя настройка -это промпты, инструменты, правила повторных попыток, парсинг ответа и прочая обвязка. Обновление весов - это изменение поведения модели на основе обратной связи по задаче. Работает это так: агент пробует много ответов или программ, верификатор оценивает результат, а эти оценки превращаются в обучающий сигнал. После этого система обновляет небольшой набор дополнительных весов LoRA. Это меняет поведение модели без полного переобучения. Базовая модель почти не трогается, но LoRA-адаптер постепенно учится: такие ответы давали высокий reward, а такие проваливались. Авторы проверили подход на трёх разных задачах: классификация обвинений в китайском праве, ускорение GPU kernel-кода и denoising single-cell RNA. Комбинированная версия обошла вариант, где улучшали только обвязку: 70.1% на LawBench, более быстрый GPU-код, чем у предыдущего лучшего решения, и 0.289 на задаче denoising. Интересный вывод: хорошая обвязка помогает агенту действовать лучше, но обновление весов помогает ему выучить паттерны задачи, которые одними промптами и инструментами не находятся. arxiv. org/abs/2605.27276 Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|