Почему алгоритм из 90-х всё ещё лежит в основе современных поисковых систем? |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-05-29 11:20 Знакомьтесь — BM25 Любой поиск по тексту решает одну задачу: из миллионов документов вытащить те, которые лучше подходят под запрос. Делается это в два этапа. Сначала система отбирает документы со словами из запроса. Затем ранжирует их по убыванию релевантности. За второй шаг часто отвечает алгоритм BM25. Эта аббревиатура означает «лучшее совпадение» (Best Matching), а 25 — номер версии алгоритма, которую опубликовали в 1994-м. К середине 2010-х алгоритм стал мировым стандартом. Его использовали интернет-поисковики вроде Google, хоть сейчас они работают на более сложных алгоритмах. Но на BM25 всё ещё основано большинство локальных систем поиска, например по маркетплейсам. Как работает BM25 Алгоритм оценивает релевантность каждого источника по отдельным словам. Например, пользователь ищет «пирог с яблоками и корицей». Критерия три: Редкость самого слова: система оценивает распространённость слов в базе. «Корица» встречается редко — это сильный сигнал. «Яблоки» — чаще, сигнал слабее. А союз «и» есть везде и не будет влиять на оценку релевантности. Частота использования слова с защитой от накрутки. Тройное упоминание «корицы» повысит релевантность, но если внутри документа «корица» встречается тридцать раз, BM25 не будет из-за этого завышать оценку. Размеры документа: короткая карточка и большой лонгрид — разные весовые категории. BM25 выравнивает это, чтобы аккуратный точный рецепт не проиграл статье типа «История яблочных пирогов в мировой кухне». Каждый из критериев — числовое значение, которое подставляется в итоговую формулу. Она ставит оценку релевантности каждого документа, на которой строится поисковая выдача. Почему поиск с помощью ИИ не заменил BM25 Всё просто: BM25 закрывает слепые пятна нейросетей. Речь про артикулы, коды ошибок, имена функций: что для нейросети может быть числом без контекста, для BM25 — конкретное слово, которое либо есть в документе, либо нет. Поэтому сейчас он часто работает в паре с ИИ: один ищет по словам, второй по смыслу, а результаты объединяют. Так, к примеру, работает гибридный поиск, на котором построено большинство RAG-систем, отвечающих на запросы по базам данных. Не пропускайте новости Яндекса Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|