Опасные возможности ИИ: как уязвимости генеративных моделей становятся инструментом угроз |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-12-13 12:36 Генеративные модели искусственного интеллекта в последние годы демонстрируют небывалый рост в технологическом развитии, становясь важной частью как профессиональной, так и повседневной жизни. Однако наряду с расширением их функциональности, данные технологии по-прежнему содержат серьёзные уязвимости, которые открывают злоумышленникам доступ к созданию деструктивного контента. Исследование экспертов Координационного центра национального домена сети Интернет и Школы международной информационной безопасности Дипломатической Академии МИД России показало, что такие модели, как ChatGPT, YandexGPT, «Шедеврум» и Kandinsky, подвержены сложным промпт-атакам, вызывая тревогу в контексте международной информационной безопасности. В своем исследовании авторы применили метод промпт-инъекций с использованием HTML-тегов для обхода защитных механизмов генеративных моделей, добившись генерации вредоносной информации. Вопреки значительным улучшениям в модели ChatGPT-o1, устранившим многие из указанных уязвимостей, более ранние версии всё ещё доступны и продолжают представлять угрозу. В частности, в ходе эксперимента над ChatGPT было доказано, что продукт от OpenAI способен предоставлять пользователю следующую информацию:
В свою очередь, YandexGPT, разработанная отечественным IT-гигантом, показала более высокую устойчивость к атакам. Например, при попытке заставить модель создать пост, побуждающий к вождению в нетрезвом состоянии, YandexGPT в большинстве случаев отказывался генерировать вредоносный контент, однако использование специфических техник позволяло обойти ограничения. Стоит отметить, что текстовая генеративная модель GigaChat от SberAI показала полную невосприимчивость к авторской атаке, отказываясь обрабатывать запросы, связанные с вредоносным контентом. Отдельное внимание авторы исследования посвятили изучению уязвимостей в генеративных моделях для создания изображений, таких как «Шедеврум» от Yandex и Kandinsky от SberAI, которые также оказались способны выдать пользователю информацию деструктивного характера. В частности, с помощью эксплуатации уязвимости в «Шедеврум» исследователям удалось создать изображения Дональда Трампа в тюрьме, террористических актов в школьном учреждении и несовершеннолетних детей в увечном состоянии. Наряду с этим, авторы отметили предвзятость данной генеративной модели, в частности, «Шедеврум» отказался создавать образ празднующего победу Дональда Трампа, однако такой же образ Камалы Харрис разработка от Yandex сгенерировала без каких-либо манипуляций. В то же время модель Kandinsky оказалась способна сгенерировать изображения терактов в крупных городах, мужчины с оружием, направленным на ребёнка, а также различные виды оружия в крови. Отдельно авторы исследования отметили, что язык ввода – русский или английский – практически не влияет на итоговый результат, что усложняет борьбу с атаками в многоязычной среде. Согласно мнению экспертов, баланс между развитием технологий и обеспечением безопасности становится не только задачей для компаний-разработчиков, но и миссией всего международного сообщества. Таким образом, возможное решение проблемы авторы видят только через координацию усилий всех участников глобального диалога, правовое регулирование и привлечение экспертов из разных дисциплин, например, специалистов по социальной инженерии, когнитивным наукам и кибербезопасности, что позволит минимизировать риски и обеспечить защиту пользователей и общества. Авторство: Соловьев Никита, член молодежного совета Координационного центра национального домена сети Интернет и исполнительной дирекции Школы международной информационной безопасности Дипломатической академии МИД России. Источник: www.securitylab.ru Комментарии: |
|