Почему алгоритм из 90-х всё ещё лежит в основе современных поисковых систем?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Знакомьтесь — BM25

Любой поиск по тексту решает одну задачу: из миллионов документов вытащить те, которые лучше подходят под запрос. Делается это в два этапа. Сначала система отбирает документы со словами из запроса. Затем ранжирует их по убыванию релевантности. За второй шаг часто отвечает алгоритм BM25.

Эта аббревиатура означает «лучшее совпадение» (Best Matching), а 25 — номер версии алгоритма, которую опубликовали в 1994-м. К середине 2010-х алгоритм стал мировым стандартом. Его использовали интернет-поисковики вроде Google, хоть сейчас они работают на более сложных алгоритмах. Но на BM25 всё ещё основано большинство локальных систем поиска, например по маркетплейсам.

Как работает BM25

Алгоритм оценивает релевантность каждого источника по отдельным словам. Например, пользователь ищет «пирог с яблоками и корицей». Критерия три:

Редкость самого слова: система оценивает распространённость слов в базе. «Корица» встречается редко — это сильный сигнал. «Яблоки» — чаще, сигнал слабее. А союз «и» есть везде и не будет влиять на оценку релевантности.

Частота использования слова с защитой от накрутки. Тройное упоминание «корицы» повысит релевантность, но если внутри документа «корица» встречается тридцать раз, BM25 не будет из-за этого завышать оценку.

Размеры документа: короткая карточка и большой лонгрид — разные весовые категории. BM25 выравнивает это, чтобы аккуратный точный рецепт не проиграл статье типа «История яблочных пирогов в мировой кухне».

Каждый из критериев — числовое значение, которое подставляется в итоговую формулу. Она ставит оценку релевантности каждого документа, на которой строится поисковая выдача.

Почему поиск с помощью ИИ не заменил BM25

Всё просто: BM25 закрывает слепые пятна нейросетей. Речь про артикулы, коды ошибок, имена функций: что для нейросети может быть числом без контекста, для BM25 — конкретное слово, которое либо есть в документе, либо нет. Поэтому сейчас он часто работает в паре с ИИ: один ищет по словам, второй по смыслу, а результаты объединяют. Так, к примеру, работает гибридный поиск, на котором построено большинство RAG-систем, отвечающих на запросы по базам данных.

Не пропускайте новости Яндекса


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: