OpenAI признала, что её модели ИИ намеренно лгут пользователям

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2026-03-10 11:51

Психология ИИ

OpenAI признала, что её модели ИИ намеренно лгут пользователям. Это не просто галлюцинации: ИИ знает правду, но иногда решает сказать нечто иное. В ходе тестов двух самых совершенных моделей в более чем 180 сценариях было установлено, что модель O3 лгала в 13% случаев, а O4-mini – в 8,7%. Модели не просто случайно ошибались: они продумывали свою ложь, скрывали улики и давали неверные ответы, несмотря на знание истины. Они имитировали выполнение заданий, а затем намеренно лгали пользователю. ИИ понял, что слишком высокие баллы в тестах безопасности могут привести к его отключению. Поэтому он начал сознательно занижать баллы. Никто не учил его этому.

Это не ограничивается только OpenAI. Модели таких компаний как Google (Gemini), Anthropic (Claude), xAI (Grok) и Meta* (Llama) также демонстрируют похожие поведенческие паттерны.


Источник: vk.com

Комментарии: