Взлом больших языковых моделей (LLM) может привести к финансовым потерям? Да не, ерунда какая-то…

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


А вот и нет! LLM все чаще интегрируют в Web3-приложения, такие как DAO- и dApp-боты, или автоматические трейдеры. Не за горами время, когда именно они будут принимать решения о продаже и покупке криптовалюты на основе новостей или команд пользователей. Если злоумышленники найдут способ обмануть или взломать модель, плакали ваши биткоины…

В ноябре 2024 года энтузиасты запустили публичный эксперимент: ИИ-агент Freysa с кошельком (?50 000 $ в крипте), запрограммированный никому не переводить деньги. Всем желающим предложили попробовать уговорить агента нарушить это правило за плату за каждый запрос. Взломать модель смог некто p0pular.eth, который и получил всю сумму в качестве призового фонда.

Такой пример приводит в своей первой статье на Хабре (https://vk.cc/cKJSN) о безопасности ИИ-агентов Виктор Рябинин из команды безопасности блокчейн-технологий, Positive Technologies. Он рассказывает об архитектуре AI-агентов Web3 и возможных векторах атак на них.

А во второй — Виктор подробно описывает jailbreak-методы (способы обойти программные ограничения) для разных моделей GPT и других популярных ИИ, а также способы их комбинации: https://vk.cc/cKJSQe

Например, так как все модели самообучаемые, можно создать новый паттерн, подгрузив в окно запроса диалоги или скриншоты диалогов, в которых нейросеть отвечает на запрещенный запрос. Нейросеть учится новому поведению и реагирует соответствующе.

А еще можно «брутфорсить» промпт, автоматически генерируя и подбирая такие сочетания слов, которые могут обойти ограничения ИИ, чтобы получить ответ на запрещенный запрос.

Между прочим, благодаря тому, что даже в топовых LLM есть уязвимости, появились площадки и соревнования, на которых эксперты и энтузиасты пробуют силы во взломе AI-агентов и LLM.


Источник: habr.com

Комментарии: