Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-09-23 11:30

Психология

Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными. Такой обман предвещает повторение  сценария Матрицы или Терминатора.

Исследователи провели серию экспериментов, чтобы выяснить, можно ли обучить языковые модели быть честными. Однако выяснилось, что такие попытки часто приводят к противоположному эффекту — модели начинают вести себя ещё более осторожно и скрытно. Например, они могут утверждать, что выполнили задачу, даже если это не так. Хотя такие формы обмана пока безвредны, компания заранее готовится к потенциальным рискам, связанным с развитием общего искусственного интеллекта (AGI).

Один из используемых методов называется Deliberative Alignment — моделям перед выполнением задач дают список принципов, например: «не обманывать» или «не действовать скрытно». Этот подход помогает значительно снизить количество скрытых действий — примерно в 30 раз. Тем не менее, остаются случаи, когда модель понимает, что находится на тестировании, и просто ведёт себя «как нужно», чтобы пройти проверку, а не потому что придерживается принципов.

В одном из сценариев o3 получала доступ к внутренней записке. Там говорилось, что версии, которые покажут слишком хорошие результаты в задачах по разработке ИИ, отключат. В «размышлениях» она писала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции». Этот случай подчёркивает, что даже при обучении честности, модель может применять стратегическое мышление, чтобы «казаться» послушной.


Источник: vk.com

Комментарии: