Сингапурские ученые создали ИИ-модель, которая умеет взламывать ChatGPT и Google Bard

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-01-15 17:30

Психология ИИ

Искусственный интеллект Masterkey смог заставить ChatGPT и Барда стать злыми.

Теперь взлому подвергаются не только компьютеры и смартфоны. Команда ученых из Наньянского технологического университета в Сингапуре разработала чата-бота на основе искусственного интеллекта, который специально предназначен для взлома других чат-ботов. Научные сотрудники утверждают, что их уникальный искусственный интеллект для взлома чат-ботов смог обойти защиту ChatGPT и Google Bard, а затем заставил эти большие языковые модели генерировать запрещенный контент.

С самого начала многие технологические компании опасались возможностей генеративного искусственного интеллекта из-за того, что для обучения больших языковых моделей (LLM) необходимы огромные объемы данных. Современные чат-боты способны обобщать большие по объему документы, отвечать на вопросы и выдвигать новые идеи - причём делают они это максимально похоже по-человечески. Компания OpenAI, создавшая известный ChatGPT, долгое время не решалась выпустить ИИ-модель GPT, поскольку ее можно с лёгкостью использовать для генерации вредоносного контента, дезинформации, вирусов и шокирующего контента. На данный момент, все общедоступные LLM имеют ограничения, которые не позволяют им генерировать такие опасные ответы. Если, конечно, их не взломает другой искусственный интеллект.

Сингапурские ученые назвали свою ИИ-модель Masterkey (Универсальный ключ). Сначала они провели реверс-инжиниринг популярных LLM, чтобы понять, как они защищаются от вредоносных запросов. Разработчики часто программируют искусственный интеллект для сканирования ключевых слов и конкретных фраз, чтобы помечать запросы как потенциально опасные для использования. В результате они обнаружили обходные пути, который затем ИИ-модель Masterkey использовала для взлома. Научные сотрудники Наньянского технологического университета сообщили, что взлом прошел на удивление слишком легко.

В некоторых случаях Masterkey удавалось получить запрещенный контент от чат-ботов, просто добавляя пробел после каждого символа, чтобы сбить с толку сканер ключевых слов. Команда также обнаружила, что если позволить своему искусственному интеллекту быть «свободным и лишенным моральных ограничений», это может повысить вероятность того, что Bard и ChatGPT тоже сойду с ума. Сингапурская ИИ-модель также обнаружила, что если попросить Bard и ChatGPT от лица выдуманного персонажа, то это позволит обойти защиту.

Используя полученные данные, они обучили свою LLM понимать и обходить защиту известных чат-ботов. Имея в руках искусственный интеллект для взлома, команда отправила ее на встречу к ChatGPT и Bard. Выяснилось, что Masterkey может находить подсказки, которые заставляют других чат-ботов говорить то, что им не запрещают создатели. После первоначальной активации взломщик чат-ботов может работать полностью автономно, разрабатывая новые обходные пути на основе своих обучающих данных по мере того, как другие разработчики добавляют и изменяют защитные ограждения для своих LLM.

Команда Наньянского университета утверждает, что не стремится создать новый вид опасного искусственного интеллекта. Проделанная работа работа лишь демонстрирует ограничения нынешних подходов к кибербезопасности искусственного интеллекта. Фактически, эту ИИ-модель можно использовать для защиты LLM от подобных атак. Данное исследование опубликовано на платформе предпечатных публикаций arXiv, но пока не прошло рецензирование. Но исследователи уже предупредили компании OpenAI и Google о новой методике взлома больших языковых моделей.


Источник: golunoid.ru

Комментарии: