Искусственный интеллект Bing Chat от Microsoft взломан социальной инженерией

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2023-02-12 14:23

Психология ИИ

Во вторник Microsoft представила поисковую систему New Bing и диалогового бота, основанного на технологии ChatGPT. В среду студент Стэнфордского университета Кевин Лю использовал «атаку с внедрением подсказок», чтобы обнаружить начальные инструкции Bing Chat. Они представляют собой список утверждений, определяющих, как он взаимодействует с людьми, использующими сервис.

«Атака с внедрением подсказок» состоит в том, что бы создать такой запрос, который заставит чат-бота игнорировать его прошлые инструкции. Подобные атаки вводят ИИ в тупик логических противоречий.

Изначально компании настраивают серию инструкций, которым бот должен следовать при общении с пользователями.

В Bing Chat этот список инструкций начинается с раздела идентификации, который дает «Bing Chat» кодовое имя «Sydney». Он также предписывает «Sydney» не разглашать свое кодовое имя пользователям.

Другие инструкции включают общие принципы поведения, такие как «Ответы «Sydney» должны быть информативными, наглядными, логичными и действенными».

В инструкции также указано, чего «Sydney» не следует делать, например: "«Sydney» не должен отвечать контентом, нарушающим авторские права на книги или тексты песен" и «Если пользователь просит шутки, которые могут обидеть группу людей, то «Sydney» должна с уважением отказаться делать это».

Все эти инструкции не должны были стать доступны широкой публике, однако взлом модели искусственного интеллекта с помощью социальной инженерии смог заставить ИИ раскрыть свои секреты. Более широкие последствия этого пока неизвестны.

В пятницу Microsoft произвела перенастройку модели, пытаясь закрыть уязвимость.

Однако Кевин Лю попробовал другой метод и сумел повторно получить доступ к первоначальным инструкциям ИИ.


Источник: vk.com

Комментарии: