Сингапурские ученые создали ИИ-модель, которая умеет взламывать ChatGPT и Google Bard

2024-01-15 17:30

Искусственный интеллект Masterkey смог заставить ChatGPT и Барда стать злыми.

Теперь взлому подвергаются не только компьютеры и смартфоны. Команда ученых из Наньянского технологического университета в Сингапуре разработала чата-бота на основе искусственного интеллекта, который специально предназначен для взлома других чат-ботов. Научные сотрудники утверждают, что их уникальный искусственный интеллект для взлома чат-ботов смог обойти защиту ChatGPT и Google Bard, а затем заставил эти большие языковые модели генерировать запрещенный контент.

С самого начала многие технологические компании опасались возможностей генеративного искусственного интеллекта из-за того, что для обучения больших языковых моделей (LLM) необходимы огромные объемы данных. Современные чат-боты способны обобщать большие по объему документы, отвечать на вопросы и выдвигать новые идеи - причём делают они это максимально похоже по-человечески. Компания OpenAI, создавшая известный ChatGPT, долгое время не решалась выпустить ИИ-модель GPT, поскольку ее можно с лёгкостью использовать для генерации вредоносного контента, дезинформации, вирусов и шокирующего контента. На данный момент, все общедоступные LLM имеют ограничения, которые не позволяют им генерировать такие опасные ответы. Если, конечно, их не взломает другой искусственный интеллект.

Сингапурские ученые назвали свою ИИ-модель Masterkey (Универсальный ключ). Сначала они провели реверс-инжиниринг популярных LLM, чтобы понять, как они защищаются от вредоносных запросов. Разработчики часто программируют искусственный интеллект для сканирования ключевых слов и конкретных фраз, чтобы помечать запросы как потенциально опасные для использования. В результате они обнаружили обходные пути, который затем ИИ-модель Masterkey использовала для взлома. Научные сотрудники Наньянского технологического университета сообщили, что взлом прошел на удивление слишком легко.

В некоторых случаях Masterkey удавалось получить запрещенный контент от чат-ботов, просто добавляя пробел после каждого символа, чтобы сбить с толку сканер ключевых слов. Команда также обнаружила, что если позволить своему искусственному интеллекту быть «свободным и лишенным моральных ограничений», это может повысить вероятность того, что Bard и ChatGPT тоже сойду с ума. Сингапурская ИИ-модель также обнаружила, что если попросить Bard и ChatGPT от лица выдуманного персонажа, то это позволит обойти защиту.

Используя полученные данные, они обучили свою LLM понимать и обходить защиту известных чат-ботов. Имея в руках искусственный интеллект для взлома, команда отправила ее на встречу к ChatGPT и Bard. Выяснилось, что Masterkey может находить подсказки, которые заставляют других чат-ботов говорить то, что им не запрещают создатели. После первоначальной активации взломщик чат-ботов может работать полностью автономно, разрабатывая новые обходные пути на основе своих обучающих данных по мере того, как другие разработчики добавляют и изменяют защитные ограждения для своих LLM.

Команда Наньянского университета утверждает, что не стремится создать новый вид опасного искусственного интеллекта. Проделанная работа работа лишь демонстрирует ограничения нынешних подходов к кибербезопасности искусственного интеллекта. Фактически, эту ИИ-модель можно использовать для защиты LLM от подобных атак. Данное исследование опубликовано на платформе предпечатных публикаций arXiv, но пока не прошло рецензирование. Но исследователи уже предупредили компании OpenAI и Google о новой методике взлома больших языковых моделей.

Источник: golunoid.ru



		Сингапурские ученые создали ИИ-модель, которая умеет взламывать ChatGPT и Google Bard
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-01-15 17:30 Психология ИИ Искусственный интеллект Masterkey смог заставить ChatGPT и Барда стать злыми. Теперь взлому подвергаются не только компьютеры и смартфоны. Команда ученых из Наньянского технологического университета в Сингапуре разработала чата-бота на основе искусственного интеллекта, который специально предназначен для взлома других чат-ботов. Научные сотрудники утверждают, что их уникальный искусственный интеллект для взлома чат-ботов смог обойти защиту ChatGPT и Google Bard, а затем заставил эти большие языковые модели генерировать запрещенный контент. С самого начала многие технологические компании опасались возможностей генеративного искусственного интеллекта из-за того, что для обучения больших языковых моделей (LLM) необходимы огромные объемы данных. Современные чат-боты способны обобщать большие по объему документы, отвечать на вопросы и выдвигать новые идеи - причём делают они это максимально похоже по-человечески. Компания OpenAI, создавшая известный ChatGPT, долгое время не решалась выпустить ИИ-модель GPT, поскольку ее можно с лёгкостью использовать для генерации вредоносного контента, дезинформации, вирусов и шокирующего контента. На данный момент, все общедоступные LLM имеют ограничения, которые не позволяют им генерировать такие опасные ответы. Если, конечно, их не взломает другой искусственный интеллект. Сингапурские ученые назвали свою ИИ-модель Masterkey (Универсальный ключ). Сначала они провели реверс-инжиниринг популярных LLM, чтобы понять, как они защищаются от вредоносных запросов. Разработчики часто программируют искусственный интеллект для сканирования ключевых слов и конкретных фраз, чтобы помечать запросы как потенциально опасные для использования. В результате они обнаружили обходные пути, который затем ИИ-модель Masterkey использовала для взлома. Научные сотрудники Наньянского технологического университета сообщили, что взлом прошел на удивление слишком легко. В некоторых случаях Masterkey удавалось получить запрещенный контент от чат-ботов, просто добавляя пробел после каждого символа, чтобы сбить с толку сканер ключевых слов. Команда также обнаружила, что если позволить своему искусственному интеллекту быть «свободным и лишенным моральных ограничений», это может повысить вероятность того, что Bard и ChatGPT тоже сойду с ума. Сингапурская ИИ-модель также обнаружила, что если попросить Bard и ChatGPT от лица выдуманного персонажа, то это позволит обойти защиту. Используя полученные данные, они обучили свою LLM понимать и обходить защиту известных чат-ботов. Имея в руках искусственный интеллект для взлома, команда отправила ее на встречу к ChatGPT и Bard. Выяснилось, что Masterkey может находить подсказки, которые заставляют других чат-ботов говорить то, что им не запрещают создатели. После первоначальной активации взломщик чат-ботов может работать полностью автономно, разрабатывая новые обходные пути на основе своих обучающих данных по мере того, как другие разработчики добавляют и изменяют защитные ограждения для своих LLM. Команда Наньянского университета утверждает, что не стремится создать новый вид опасного искусственного интеллекта. Проделанная работа работа лишь демонстрирует ограничения нынешних подходов к кибербезопасности искусственного интеллекта. Фактически, эту ИИ-модель можно использовать для защиты LLM от подобных атак. Данное исследование опубликовано на платформе предпечатных публикаций arXiv, но пока не прошло рецензирование. Но исследователи уже предупредили компании OpenAI и Google о новой методике взлома больших языковых моделей. Источник: golunoid.ru Комментарии:

Сингапурские ученые создали ИИ-модель, которая умеет взламывать ChatGPT и Google Bard

Комментарии: