![]() |
![]() |
![]() |
|||||
![]() |
Нейронка в угоне: как атакуют и защищают модели искусственного интеллекта |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-03-04 14:07 Необходимость в обеспечении безопасности компаний при интеграции моделей искусственного интеллекта в бизнес-процессы и применение ИИ киберпреступниками уже не новинка для рынка IT. В то же время не так много внимания уделяется защите самих моделей ИИ от различных атак, хотя всего месяц назад Microsoft и OpenAI публично заявили, что подозревают китайскую DeepSeek в несанкционированном доступе к своим массивам данных. О типологии атак на ИИ-модели, потенциальных рисках для бизнеса и месте науки на рынке ИБ рассказывает кандидат физико-математических наук, руководитель научной группы «Доверенные и безопасные интеллектуальные системы» Института AIRI, старший научный сотрудник МТУСИ Олег Рогов Атака на модели ИИ — это выведение нейросети из штатного режима работы, для которого она предназначалась в процессе создания. Злоумышленники используют недостаточную подготовку данных или определенные способы обучения нейронных сетей в качестве уязвимостей. Существует два основных режима атак. Whitebox-атака используется, когда злоумышленник знает модель, параметры и архитектуру (пример — физический доступ к серверу с продуктом и/или исходному коду и самой готовой модели). Такие атаки чаще находятся в плоскости экспертизы классической информационной безопасности организаций и заключаются в обеспечении защиты контура предприятия, потому что требуют либо прямого доступа к инфраструктуре компании, либо к конфиденциальной информации. Но наибольший интерес для научного сообщества в области доверенного ИИ представляют blackbox-атаки, во время которых доступ к моделям получают через программный интерфейс API, обладая лишь ограниченными знаниями о функционале модели, но не зная ничего о ее параметрах и данных, на которых модель была обучена. Прежде всего стоит уделять внимание эксплуатации небольших возмущений во входных данных, которые подаются в модель и, как правило, невидимы не только невооруженному глазу человека, но и труднораспознаваемы автоматизированными системами. «Возмущения» — небольшие специально подобранные изменения, которые добавляются к данным с целью заставить модель машинного обучения ошибиться. К примеру, злоумышленники добавляют в данные аддитивный шум, который портит функционал и качество работы нейронной сети. Самый простой пример может выглядеть так: мы взяли картинку с котом, добавили в нее небольшие возмущения и с этими возмущениями подали изображение на вход нейронной сети, которая стала идентифицировать кота как черепаху. Существует целый спектр задач, который называется «отравлением данных». Он направлен на получение бэкдора к модели. Такие изменения в данных невидимы невооруженному глазу эксперта и даже некоторым вспомогательным моделям, которые проверяют данные, в случае если эти модели не обладают специальным функционалом для поиска скрытых паттернов. Такие атаки также могут быть опасны и использоваться в комбинации с другими решениями для злонамеренной корректировки работы целевой архитектуры по определенным классам данных. Если модель загружается из ненадежного источника, злоумышленник может внедрить вредоносный код в ее файл. При загрузке модели вредоносный код может быть выполнен, если среда выполнения не проверяет целостность и безопасность файла. Следующий вариант — атаки, направленные на кражу функциональности. В первую очередь им подвергаются open source модели и модели, доступ к которым предоставляется через API. В частности, большие языковые модели. Создаются так называемые суррогатные модели или даже множество нейросетевых агентов, которые обучаются на ответах целевой модели с помощью своих данных. Основная задача злоумышленников, которые выполняют такую атаку, — сократить расходы на разработку собственных решений, украсть функционал другого разработчика, получив суррогатный слепок модели и обучив его на своих данных, чтобы максимально приблизиться по качеству и принципам работы к исходной версии. Это особенно актуально в высококонкурентной среде крупных IT-компаний, предоставляющих монетизируемые решения на базе передовых архитектур больших языковых и мультимодальных моделей (таких, как ChatGPT). Кроме того, существует большой пласт атак, направленных на нарушения приватности. В частности, «атаки о принадлежности к обучающей выборке» (от англ. membership inference). В эту категорию попадают попытки сформировать запрос к нейронной сети в определенной конфигурации так, чтобы извлечь конкретные части данных, на которых она была обучена. Например, текст документа или фотографии. Разумеется, в такой ситуации модель может «сгаллюцинировать» и предоставить ложные данные, но сценарий, в котором она выдаст наружу исходники из обучающей выборки, вполне реален. Это еще в 2021 году продемонстрировал коллектив исследователей из Google, OpenAI и других компаний, которые путем конструирования промпта с особым префиксом извлекли персональные данные из модели GPT-2. Зачастую такие подходы используются как вспомогательные элементы для более сложных, разнонаправленных и многокомпонентных вредоносных воздействий на инфраструктуру целевой компании. Все атаки так или иначе приводят к трем основным рискам для бизнеса: репутационным потерям, утечкам данных или проблемам с защитой авторских прав. В первом сценарии цель злоумышленников — испортить качество работы продукта жертвы или подвести ее под нарушение морально-этических или законодательных норм. Например, заставить языковую модель отвечать на скользкие вопросы определенным образом или сделать так, чтобы генератор картинок создавал изображения, отражающие, скажем, дискриминацию по расовому признаку. Далее в дело вполне могут включиться «шортселлер-репортеры» — специалисты, которые целенаправленно ищут негативные факты о компаниях, чтобы занизить их стоимость. Они фиксируют случаи «некорректного поведения» ИИ-продуктов и стараются привлечь максимальное количество внимания к этим кейсам. Аналитики «Лаборатории Касперского» уже выделяют получение бэкдоров к открытым моделям в качестве одного из наиболее важных элементов ландшафта сложных киберугроз в 2025 году. Насущная проблема для компаний, связанная с устойчивостью ИИ-моделей, — голосовое мошенничество с применением технологий клонирования голоса. Так, в конце 2024 года Group-IB отчиталась о расследовании 1100 попыток обхода процедур защиты заявок на получение кредитов в одной из финансовых организаций Индонезии с помощью дипфейков. Атаки с целью кражи функциональности — крайне популярная тема для обсуждения в профессиональном сообществе. Именно к этой категории атак на модели ИИ попытались причислить обвинения Microsoft и OpenAI в отношении китайской компании DeepSeek. Представители OpenAI сообщили, что обладают доказательствами, связывающими DeepSeek с использованием метода дистилляции. Дистилляция представляет собой особый метод сжатия и оптимизации моделей машинного обучения, при котором знания из большой сложной модели-учителя передаются в меньшую, более компактную модель-ученика. Этот процесс позволяет сохранить высокую точность модели, уменьшая ее вычислительные требования и размер. В контексте разработки передовых решений и атак через API дистилляция моделей играет важную роль. Важно отметить, что упомянутые доказательства общественности не представили и никто пока не подтвердил факт дистилляции моделей китайским конкурентом. Кроме того, в Сети активно ведутся обсуждения о том, как именно следует классифицировать подобные действия с юридической точки зрения, ведь они действительно нарушают условия предоставления услуг компании OpenAI, но в то же время не попадают под закон об интеллектуальной собственности. В январе 2024 года похожая ситуация произошла с французским стартапом Mistral, который развивает одну из наиболее мощных полностью открытых языковых моделей. Вне зависимости от того, как будет развиваться история противостояния OpenAI и DeepSeek, дистилляция на данный момент продолжает оставаться одним из самых известных и эффективных методов для обучения суррогатных моделей, хотя и была впервые подробно описана в научной статье нобелевского лауреата Джеффри Хинтона еще в 2015 году. Механизмы защиты от таких атак встраиваются в модели двумя путями: либо сразу на уровне обучения, либо на этапе интеграции нейронной сети. Активно развивается применение ансамблей моделей и состязательного обучения, когда две или более модели обучаются одновременно, конкурируя друг с другом. Базовой практикой являются различные методы обучения с использованием противодействующих примеров (adversarial training): в модель на старте обучения добавляют данные об атаках, чтобы она могла научиться распознавать их и правильно обрабатывать такие случаи. Устойчивость к изменениям во входных данных обеспечивается с помощью регуляризации — техники добавления в модель ограничений, чтобы она не переобучалась на тренировочных примерах и лучше работала на новых незнакомых данных. Когда нейросети уже обучены (особенно если мы говорим про тяжелые, дорогостоящие модели, которые сейчас монетизируются), одним из наиболее популярных методов защиты является маркировка. Маркировать можно как сами нейросетевые модели, так и данные для их обучения. Основной вопрос, который ставят перед собой специалисты в этой области с точки зрения практического применения, — обеспечение гарантируемой устойчивости таких маркировок. Очень важно определять, до какого предела данные можно искажать, чтобы система цифровых водяных знаков работала штатно. Большой процент публичных датасетов и вообще данных в интернете содержит в себе искажения, в том числе добавленные туда намеренно. Чтобы избежать отравления данных, необходимо тщательно обрабатывать и проверять все используемые в обучении наборы. На профессиональном языке это называется санацией данных, и проводится она как вручную, так и с применением специально натренированных для этого нейросетей. Ранее методами устойчивости ИИ-моделей к атакам в основном занимались только внутренние подразделения компаний, которые отвечают за разработку собственных моделей, а атаки симулировались в научных публикациях как возможные в будущем сценарии. Сейчас же большинство разработчиков «классических» приложений для кибербезопасности активно интегрирует методы борьбы с атаками на ИИ-модели в свои продукты. Это касается и интеллектуальных систем мониторинга трафика, и защиты контура компаний, и DLP-продуктов, направленных на предотвращение утечек чувствительной информации. На рынке появляются отдельные компании, которые специализируются на проверке устойчивости больших языковых моделей. Так, General Analysis — один из стартапов, заявивших о себе в YCombinator в 2024 году, предлагает услуги компаниям — разработчикам ИИ по стресс-тестированию их моделей, включая атаки вида LLM jailbreaking, когда путем интеллектуальной автоматизации подбора промпта нейросети выводятся из режима их штатной работы. Мир оказывается в ситуации, когда параллельно с реализацией когда-то считавшихся лишь гипотетически возможными сценариев атак на сами модели ИИ, развивается их же применение как для обеспечения ИБ, так и для киберпреступлений. По данным Positive Technologies, хакеры способны использовать ИИ более чем в половине техник кибератак. В то же время ключевые проблемы кибербезопасности ИИ неразрывно связаны с объяснимостью, интерпретируемостью и устойчивостью моделей. Именно поэтому глубокая теоретическая обоснованность разработки ИИ-архитектур становится не просто актуальной, но жизненно-необходимой. Мнение редакции может не совпадать с точкой зрения автора Источник: www.forbes.ru Комментарии: |
||||||