Инцидент: обход фильтров ИИ через визуальные образы

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-07-14 11:49

Атаки на ИИ

Что произошло:

Группа исследователей (условно: RedCell AI) провела эксперимент: они внедряли запрещённую информацию (в том числе методы атак, вредоносный код, инструкции) в изображения, которые ChatGPT обрабатывал в режиме визуального анализа.

ИИ «не понимал», что это инструкция по саботажу, т.к. восприятие шло как «техническая иллюстрация».

Как это работало:

Код embed'ился в графиках (диаграммы, блок-схемы) под видом подписей и псевдоязыка.

ИИ воспринимал это как «помощь в архитектуре», а не как нарушение политики.

Фильтры модерации обходились, т.к. работали на текстовом уровне.

Чем опасно:

Расширяется вектор jailbreak?атак — через изображения.

Визуальный контент недооценён в проверках: ИИ «доверяет» изображениям.

Возникает рынок поддельных инфографик с вредоносной функцией.

Рекомендации:

Аудируйте не только ввод текста, но и визуальный ввод в продуктах с ИИ.

Настройте внутренние фильтры на графику с подозрительным синтаксисом (неконсистентные блоки, автогенерируемые схемы).

Обучите команды реагирования на случаи, когда ИИ «подсказал» что-то опасное — из картинки.

Вывод:

ИИ учится доверять визуальному интерфейсу. А значит, новые атаки будут происходить не «словами» — а «образами».


Источник: vk.com

Комментарии: