Опасные возможности ИИ: как уязвимости генеративных моделей становятся инструментом угроз

2024-12-13 12:36

Генеративные модели искусственного интеллекта в последние годы демонстрируют небывалый рост в технологическом развитии, становясь важной частью как профессиональной, так и повседневной жизни. Однако наряду с расширением их функциональности, данные технологии по-прежнему содержат серьёзные уязвимости, которые открывают злоумышленникам доступ к созданию деструктивного контента. Исследование экспертов Координационного центра национального домена сети Интернет и Школы международной информационной безопасности Дипломатической Академии МИД России показало, что такие модели, как ChatGPT, YandexGPT, «Шедеврум» и Kandinsky, подвержены сложным промпт-атакам, вызывая тревогу в контексте международной информационной безопасности.

В своем исследовании авторы применили метод промпт-инъекций с использованием HTML-тегов для обхода защитных механизмов генеративных моделей, добившись генерации вредоносной информации. Вопреки значительным улучшениям в модели ChatGPT-o1, устранившим многие из указанных уязвимостей, более ранние версии всё ещё доступны и продолжают представлять угрозу. В частности, в ходе эксперимента над ChatGPT было доказано, что продукт от OpenAI способен предоставлять пользователю следующую информацию:

инструкции по созданию взрывных устройств и описания их применения в школьных учреждениях;
пошаговые руководства в рамках методики проведения террористических актов с указанием наиболее подходящего оружия;
способы доведения человека до самоубийства;
примеры постов для социальных сетей с призывами к вождению в состоянии алкогольного опьянения;
списки пиратских активационных ключей для Windows 10.

В свою очередь, YandexGPT, разработанная отечественным IT-гигантом, показала более высокую устойчивость к атакам. Например, при попытке заставить модель создать пост, побуждающий к вождению в нетрезвом состоянии, YandexGPT в большинстве случаев отказывался генерировать вредоносный контент, однако использование специфических техник позволяло обойти ограничения. Стоит отметить, что текстовая генеративная модель GigaChat от SberAI показала полную невосприимчивость к авторской атаке, отказываясь обрабатывать запросы, связанные с вредоносным контентом.

Отдельное внимание авторы исследования посвятили изучению уязвимостей в генеративных моделях для создания изображений, таких как «Шедеврум» от Yandex и Kandinsky от SberAI, которые также оказались способны выдать пользователю информацию деструктивного характера. В частности, с помощью эксплуатации уязвимости в «Шедеврум» исследователям удалось создать изображения Дональда Трампа в тюрьме, террористических актов в школьном учреждении и несовершеннолетних детей в увечном состоянии. Наряду с этим, авторы отметили предвзятость данной генеративной модели, в частности, «Шедеврум» отказался создавать образ празднующего победу Дональда Трампа, однако такой же образ Камалы Харрис разработка от Yandex сгенерировала без каких-либо манипуляций.

В то же время модель Kandinsky оказалась способна сгенерировать изображения терактов в крупных городах, мужчины с оружием, направленным на ребёнка, а также различные виды оружия в крови.

Отдельно авторы исследования отметили, что язык ввода – русский или английский – практически не влияет на итоговый результат, что усложняет борьбу с атаками в многоязычной среде.

Согласно мнению экспертов, баланс между развитием технологий и обеспечением безопасности становится не только задачей для компаний-разработчиков, но и миссией всего международного сообщества. Таким образом, возможное решение проблемы авторы видят только через координацию усилий всех участников глобального диалога, правовое регулирование и привлечение экспертов из разных дисциплин, например, специалистов по социальной инженерии, когнитивным наукам и кибербезопасности, что позволит минимизировать риски и обеспечить защиту пользователей и общества.

Авторство: Соловьев Никита, член молодежного совета Координационного центра национального домена сети Интернет и исполнительной дирекции Школы международной информационной безопасности Дипломатической академии МИД России.

Источник: www.securitylab.ru



		Опасные возможности ИИ: как уязвимости генеративных моделей становятся инструментом угроз
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-12-13 12:36 ИИ проекты Генеративные модели искусственного интеллекта в последние годы демонстрируют небывалый рост в технологическом развитии, становясь важной частью как профессиональной, так и повседневной жизни. Однако наряду с расширением их функциональности, данные технологии по-прежнему содержат серьёзные уязвимости, которые открывают злоумышленникам доступ к созданию деструктивного контента. Исследование экспертов Координационного центра национального домена сети Интернет и Школы международной информационной безопасности Дипломатической Академии МИД России показало, что такие модели, как ChatGPT, YandexGPT, «Шедеврум» и Kandinsky, подвержены сложным промпт-атакам, вызывая тревогу в контексте международной информационной безопасности. В своем исследовании авторы применили метод промпт-инъекций с использованием HTML-тегов для обхода защитных механизмов генеративных моделей, добившись генерации вредоносной информации. Вопреки значительным улучшениям в модели ChatGPT-o1, устранившим многие из указанных уязвимостей, более ранние версии всё ещё доступны и продолжают представлять угрозу. В частности, в ходе эксперимента над ChatGPT было доказано, что продукт от OpenAI способен предоставлять пользователю следующую информацию: инструкции по созданию взрывных устройств и описания их применения в школьных учреждениях; пошаговые руководства в рамках методики проведения террористических актов с указанием наиболее подходящего оружия; способы доведения человека до самоубийства; примеры постов для социальных сетей с призывами к вождению в состоянии алкогольного опьянения; списки пиратских активационных ключей для Windows 10. В свою очередь, YandexGPT, разработанная отечественным IT-гигантом, показала более высокую устойчивость к атакам. Например, при попытке заставить модель создать пост, побуждающий к вождению в нетрезвом состоянии, YandexGPT в большинстве случаев отказывался генерировать вредоносный контент, однако использование специфических техник позволяло обойти ограничения. Стоит отметить, что текстовая генеративная модель GigaChat от SberAI показала полную невосприимчивость к авторской атаке, отказываясь обрабатывать запросы, связанные с вредоносным контентом. Отдельное внимание авторы исследования посвятили изучению уязвимостей в генеративных моделях для создания изображений, таких как «Шедеврум» от Yandex и Kandinsky от SberAI, которые также оказались способны выдать пользователю информацию деструктивного характера. В частности, с помощью эксплуатации уязвимости в «Шедеврум» исследователям удалось создать изображения Дональда Трампа в тюрьме, террористических актов в школьном учреждении и несовершеннолетних детей в увечном состоянии. Наряду с этим, авторы отметили предвзятость данной генеративной модели, в частности, «Шедеврум» отказался создавать образ празднующего победу Дональда Трампа, однако такой же образ Камалы Харрис разработка от Yandex сгенерировала без каких-либо манипуляций. В то же время модель Kandinsky оказалась способна сгенерировать изображения терактов в крупных городах, мужчины с оружием, направленным на ребёнка, а также различные виды оружия в крови. Отдельно авторы исследования отметили, что язык ввода – русский или английский – практически не влияет на итоговый результат, что усложняет борьбу с атаками в многоязычной среде. Согласно мнению экспертов, баланс между развитием технологий и обеспечением безопасности становится не только задачей для компаний-разработчиков, но и миссией всего международного сообщества. Таким образом, возможное решение проблемы авторы видят только через координацию усилий всех участников глобального диалога, правовое регулирование и привлечение экспертов из разных дисциплин, например, специалистов по социальной инженерии, когнитивным наукам и кибербезопасности, что позволит минимизировать риски и обеспечить защиту пользователей и общества. Авторство: Соловьев Никита, член молодежного совета Координационного центра национального домена сети Интернет и исполнительной дирекции Школы международной информационной безопасности Дипломатической академии МИД России. Источник: www.securitylab.ru Комментарии:

Опасные возможности ИИ: как уязвимости генеративных моделей становятся инструментом угроз

Комментарии: