BullshitBench v2 - это бенчмарк, который проверяет, способны ли модели ИИ распознавать бессмысленные запросы и отказываться на них отвечать |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-03-08 11:16 BullshitBench v2, созданный Питером Гостевым, - это бенчмарк, который проверяет, способны ли модели ИИ распознавать бессмысленные запросы и отказываться на них отвечать, вместо того чтобы уверенно продолжать и «придумывать» ответ. Только модели Claude от Anthropic и Qwen 3.5 от Alibaba показывают результат выше 60% по распознаванию бессмыслицы. А модели OpenAI и Google? Застряли на месте и почти не улучшаются. Еще более неожиданно: модели с усиленным рассуждением (reasoning), которые «думают дольше», на самом деле показывают худшие результаты. Они используют дополнительное вычисление не для того, чтобы отвергнуть бессмысленный запрос, а чтобы рационализировать и оправдать этот абсурд. https://x.com/petergostev/status/2028492838082666780 Источник: x.com Комментарии: |
|