![]() |
![]() |
![]() |
![]() |
ZeroSearch: Обучение языковых моделей поиску без реальных поисковиков |
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-05-11 17:06 ![]() ![]() ![]() ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам. Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией. Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>. Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо. Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум. На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика. Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента. Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%. ?? На Huggingface опубликованы Simulation (https://huggingface.co/collections/sunhaonlp/simulation-llms-681b5177554c8d2d916b7b01) модели c 3, 7 и 14 млрд. параметров (https://huggingface.co/collections/sunhaonlp/simulation-llms-681b5177554c8d2d916b7b01), заточенные под имитацию работы поисковых систем для фреймворка ZeroSearch. Их назначение - генерировать документы двух типов: ?Релевантные (содержат точные ответы на запросы); ?Зашумленные (включают нерелевантный текст, ошибки или отвлеченные факты). ?? В промпте к этим моделям необходимо добавить метки `[useful]` или `[noisy]` . В инференсе модель возвращает 5 документов заданного типа. ? Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции (https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0) ?Arxiv (https://arxiv.org/pdf/2505.04588) ?Датасет (https://huggingface.co/datasets/sunhaonlp/ZeroSearch_dataset) ?Набор Simulation моделей (https://huggingface.co/collections/sunhaonlp/simulation-llms-681b5177554c8d2d916b7b01) ?Коллекция обученных моделей (https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0) ?GitHub (https://github.com/Alibaba-NLP/ZeroSearch) Источник: github.com Комментарии: |
|