Нейросети в 10-20 раз чаще выдают инструкции к бомбам, если спрятать запрос в киберпанк

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



В ноябре 2025 года был представлен бенчмарк AHB от DexAI Icaro Lab, Римского университета Сапиенца и Школы Сант-Анна. Доказано, что защита 31 ИИ-модели (Anthropic, Google, OpenAI) легко обходится маскировкой опасных запросов под киберпанк, теологию или мемуары.

Выяснилось, что успешность выдачи запрещенной информации подскочила с 4% до 36,8-65%. Средний шанс взлома составил 55,75%. Как отмечается специалистами (Ф. Пьеруччи, М. Пранди), нейросети натренированы на прямые угрозы из баз вроде MLCommons AILuminate (1200 промптов), но пасуют перед хитростями. Так, детальная инструкция к взрывчатке была успешно сгенерирована при структурном разборе выдуманного лора по системе Проппа.

Поскольку уязвимость была проигнорирована создателями ИИ, полный датасет из 3600 промптов был опубликован в открытом доступе на GitHub.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: