ZeroSearch: Обучение языковых моделей поиску без реальных поисковиков

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.

Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.

Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.

Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.

Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.

На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.

Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.

Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.

?? На Huggingface опубликованы Simulation (https://huggingface.co/collections/sunhaonlp/simulation-llms-681b5177554c8d2d916b7b01) модели c 3, 7 и 14 млрд. параметров (https://huggingface.co/collections/sunhaonlp/simulation-llms-681b5177554c8d2d916b7b01), заточенные под имитацию работы поисковых систем для фреймворка ZeroSearch. Их назначение - генерировать документы двух типов:

?Релевантные (содержат точные ответы на запросы);

?Зашумленные (включают нерелевантный текст, ошибки или отвлеченные факты).

?? В промпте к этим моделям необходимо добавить метки `[useful]` или `[noisy]` . В инференсе модель возвращает 5 документов заданного типа.

? Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции (https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0)

?Arxiv (https://arxiv.org/pdf/2505.04588)

?Датасет (https://huggingface.co/datasets/sunhaonlp/ZeroSearch_dataset)

?Набор Simulation моделей (https://huggingface.co/collections/sunhaonlp/simulation-llms-681b5177554c8d2d916b7b01)

?Коллекция обученных моделей (https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0)

?GitHub (https://github.com/Alibaba-NLP/ZeroSearch)


Источник: github.com

Комментарии: