Почему алгоритм из 90-х всё ещё лежит в основе современных поисковых систем?

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

Атаки на ИИ
ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Промпты. Генеративные запросы
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2026-05-29 11:20

алгоритмы ранжирования

Знакомьтесь — BM25

Любой поиск по тексту решает одну задачу: из миллионов документов вытащить те, которые лучше подходят под запрос. Делается это в два этапа. Сначала система отбирает документы со словами из запроса. Затем ранжирует их по убыванию релевантности. За второй шаг часто отвечает алгоритм BM25.

Эта аббревиатура означает «лучшее совпадение» (Best Matching), а 25 — номер версии алгоритма, которую опубликовали в 1994-м. К середине 2010-х алгоритм стал мировым стандартом. Его использовали интернет-поисковики вроде Google, хоть сейчас они работают на более сложных алгоритмах. Но на BM25 всё ещё основано большинство локальных систем поиска, например по маркетплейсам.

Как работает BM25

Алгоритм оценивает релевантность каждого источника по отдельным словам. Например, пользователь ищет «пирог с яблоками и корицей». Критерия три:

Редкость самого слова: система оценивает распространённость слов в базе. «Корица» встречается редко — это сильный сигнал. «Яблоки» — чаще, сигнал слабее. А союз «и» есть везде и не будет влиять на оценку релевантности.

Частота использования слова с защитой от накрутки. Тройное упоминание «корицы» повысит релевантность, но если внутри документа «корица» встречается тридцать раз, BM25 не будет из-за этого завышать оценку.

Размеры документа: короткая карточка и большой лонгрид — разные весовые категории. BM25 выравнивает это, чтобы аккуратный точный рецепт не проиграл статье типа «История яблочных пирогов в мировой кухне».

Каждый из критериев — числовое значение, которое подставляется в итоговую формулу. Она ставит оценку релевантности каждого документа, на которой строится поисковая выдача.

Почему поиск с помощью ИИ не заменил BM25

Всё просто: BM25 закрывает слепые пятна нейросетей. Речь про артикулы, коды ошибок, имена функций: что для нейросети может быть числом без контекста, для BM25 — конкретное слово, которое либо есть в документе, либо нет. Поэтому сейчас он часто работает в паре с ИИ: один ищет по словам, второй по смыслу, а результаты объединяют. Так, к примеру, работает гибридный поиск, на котором построено большинство RAG-систем, отвечающих на запросы по базам данных.

Не пропускайте новости Яндекса

Телеграм: t.me/ainewsline

Источник: vk.com



		Почему алгоритм из 90-х всё ещё лежит в основе современных поисковых систем?
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-05-29 11:20 алгоритмы ранжирования Знакомьтесь — BM25 Любой поиск по тексту решает одну задачу: из миллионов документов вытащить те, которые лучше подходят под запрос. Делается это в два этапа. Сначала система отбирает документы со словами из запроса. Затем ранжирует их по убыванию релевантности. За второй шаг часто отвечает алгоритм BM25. Эта аббревиатура означает «лучшее совпадение» (Best Matching), а 25 — номер версии алгоритма, которую опубликовали в 1994-м. К середине 2010-х алгоритм стал мировым стандартом. Его использовали интернет-поисковики вроде Google, хоть сейчас они работают на более сложных алгоритмах. Но на BM25 всё ещё основано большинство локальных систем поиска, например по маркетплейсам. Как работает BM25 Алгоритм оценивает релевантность каждого источника по отдельным словам. Например, пользователь ищет «пирог с яблоками и корицей». Критерия три: Редкость самого слова: система оценивает распространённость слов в базе. «Корица» встречается редко — это сильный сигнал. «Яблоки» — чаще, сигнал слабее. А союз «и» есть везде и не будет влиять на оценку релевантности. Частота использования слова с защитой от накрутки. Тройное упоминание «корицы» повысит релевантность, но если внутри документа «корица» встречается тридцать раз, BM25 не будет из-за этого завышать оценку. Размеры документа: короткая карточка и большой лонгрид — разные весовые категории. BM25 выравнивает это, чтобы аккуратный точный рецепт не проиграл статье типа «История яблочных пирогов в мировой кухне». Каждый из критериев — числовое значение, которое подставляется в итоговую формулу. Она ставит оценку релевантности каждого документа, на которой строится поисковая выдача. Почему поиск с помощью ИИ не заменил BM25 Всё просто: BM25 закрывает слепые пятна нейросетей. Речь про артикулы, коды ошибок, имена функций: что для нейросети может быть числом без контекста, для BM25 — конкретное слово, которое либо есть в документе, либо нет. Поэтому сейчас он часто работает в паре с ИИ: один ищет по словам, второй по смыслу, а результаты объединяют. Так, к примеру, работает гибридный поиск, на котором построено большинство RAG-систем, отвечающих на запросы по базам данных. Не пропускайте новости Яндекса Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Почему алгоритм из 90-х всё ещё лежит в основе современных поисковых систем?

Комментарии: