Галлюцинации, промпт-инъекции и «отравленные» данные: какие угрозы ИИ впервые систематизировал Банк России

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Появление Методических рекомендаций Банка России № 3-МР знаменует собой не только развитие подходов к обеспечению информационной безопасности, но и фактическое формирование новой модели управления технологическими рисками искусственного интеллекта. Если ранее основное внимание уделялось защите сетевой инфраструктуры, автоматизированных банковских систем, каналов передачи данных и средств криптографической защиты информации, то теперь самостоятельным объектом защиты становятся сами модели искусственного интеллекта, данные, на которых они обучаются, а также результаты их функционирования.

Такой подход отражает общемировую тенденцию. Современные модели машинного обучения представляют собой не статичные программные продукты, а динамические системы, качество работы которых напрямую зависит от состояния обучающих данных, особенностей архитектуры модели, параметров обучения, характера пользовательских запросов и внешнего воздействия злоумышленников. Именно поэтому Банк России рассматривает информационную безопасность ИИ как самостоятельное направление управления операционной надежностью финансовой организации.

От защиты инфраструктуры — к защите модели искусственного интеллекта

Одним из наиболее значимых положений документа стало признание того, что объектом атаки может быть не только информационная система организации, но и непосредственно модель искусственного интеллекта.
В традиционной модели информационной безопасности нарушитель стремится получить доступ к информационным ресурсам, нарушить работоспособность инфраструктуры либо похитить конфиденциальные сведения. В случае с системами искусственного интеллекта круг потенциальных угроз значительно шире.

Воздействие может осуществляться:

  • на исходные обучающие данные;
  • на архитектуру модели;
  • на алгоритмы обучения;
  • на параметры функционирования модели;
  • на входные запросы;
  • на результаты обработки информации;
  • на взаимодействие модели с внешними сервисами;
  • на процессы последующего дообучения.

По существу Банк России предлагает рассматривать систему искусственного интеллекта как самостоятельный объект защиты, имеющий собственный жизненный цикл и собственную модель угроз. Такой подход проходит через весь документ и последовательно раскрывается в приложениях, посвящённых этапам разработки, эксплуатации и сопровождения ИИ.

Именно эта особенность отличает новые рекомендации от ранее действовавших документов по информационной безопасности.

Банк России впервые систематизировал специфические угрозы технологий ИИ

Одним из наиболее ценных элементов Методических рекомендаций является формирование перечня угроз, характерных исключительно для технологий искусственного интеллекта.
Регулятор выделяет восемь основных категорий угроз:

  • нарушение функционирования (обход) модели ИИ;
  • искажение (отравление) обучающих данных;
  • раскрытие информации о модели;
  • хищение обучающих данных;
  • модификация модели;
  • приведение модели в состояние отказа в обслуживании;
  • манипулирование поведением модели;
  • подмена модели ИИ.

Важно отметить, что данный перечень сформирован не теоретически.

Для каждой угрозы Банк России определяет:
— механизм реализации;
— возможные последствия;
— этап жизненного цикла, на котором она возникает;
— рекомендуемые меры защиты.

Именно такой риск-ориентированный подход постепенно становится международным стандартом регулирования систем искусственного интеллекта.

 

Отравление данных становится одной из наиболее опасных угроз

Особое внимание регулятор уделяет так называемому Data Poisoningнамеренному искажению обучающих данных.
С юридической точки зрения данная угроза принципиально отличается от классического несанкционированного доступа.
В этом случае злоумышленник может вообще не получать контроль над системой.

Достаточно добиться попадания в обучающий набор специально подготовленных данных.
После обучения модель начинает систематически принимать ошибочные решения, которые формально соответствуют внутренней логике алгоритма.
Для финансового рынка последствия подобной атаки могут быть крайне серьёзными.

Например:
банк начинает ошибочно оценивать кредитоспособность клиентов;
антифрод-система перестает выявлять мошеннические операции;
алгоритм скоринга существенно занижает вероятность мошенничества;
система противодействия легализации доходов прекращает выявлять подозрительные операции;
модель начинает принимать инвестиционные решения с повышенным уровнем риска.

Поэтому Банк России рекомендует реализовать целый комплекс защитных мероприятий.
В частности, предлагается:

  • проводить контроль происхождения данных;
  • проверять корректность меток;
  • документировать любые изменения обучающих наборов;
  • обеспечивать контроль целостности;
  • проводить повторную проверку после очистки данных;
  • тестировать модель на предмет признаков отравления.

Фактически речь идет о необходимости внедрения полноценного управления качеством данных как самостоятельного элемента системы информационной безопасности.

 

Состязательные атаки становятся новой категорией киберугроз

Еще несколько лет назад понятие состязательные атаки (adversarial attacks) встречалось преимущественно в научной литературе.
Теперь оно фактически интегрировано в практику регулирования Банка России.

Регулятор обращает внимание, что злоумышленник способен подготовить специальные входные данные, содержащие минимальные изменения, практически незаметные человеку, однако приводящие модель к полностью ошибочному выводу.

Подобные атаки получили название состязательных.
Их цель заключается не во взломе информационной системы, а в изменении поведения модели искусственного интеллекта.

Например:
система распознавания документов может принять поддельный документ за подлинный;
антифрод не обнаружит мошенническую транзакцию;
система биометрической идентификации подтвердит личность постороннего лица;
скоринговая модель одобрит кредит заведомо недобросовестному заемщику.

Банк России рекомендует использовать специальные методы повышения устойчивости моделей к подобным воздействиям, включая состязательное обучение, ансамблевые модели, контроль аномалий входных данных и дополнительное тестирование после обучения.

 

Промпт-инъекция выходит на уровень официального регулирования

Одной из наиболее современных особенностей документа стало фактическое признание угрозы промпт-инъекции (Prompt Injection).

Еще недавно подобные атаки обсуждались исключительно применительно к большим языковым моделям.
Сегодня Банк России рассматривает их как полноценную угрозу информационной безопасности.

Суть проблемы заключается в том, что злоумышленник формирует специальный запрос, заставляющий модель игнорировать первоначальные ограничения либо выполнять действия, не предусмотренные разработчиком.
Результатом могут стать:

  • раскрытие конфиденциальной информации;
  • выполнение запрещённых операций;
  • генерация недостоверных выводов;
  • обход внутренних ограничений;
  • создание условий для последующих атак.

В документе подобные угрозы рассматриваются в составе манипулирования поведением модели посредством вредоносных инъекций. В качестве мер защиты рекомендуется фильтрация входных данных, регистрация запросов, мониторинг поведения модели и проведение специализированного тестирования на проникновение.

Для юридических подразделений это означает, что требования к внутреннему контролю должны распространяться не только на программный код, но и на процессы эксплуатации генеративных моделей.

 

Кража модели становится самостоятельным объектом защиты

Интересной особенностью Методических рекомендаций является признание риска так называемой модели кражи.
Регулятор отмечает, что нарушитель способен восстановить копию модели, последовательно анализируя ответы системы на большое количество запросов.

Получив достаточный массив информации, злоумышленник может создать функционально близкую модель, практически не имея доступа к исходному программному коду.
С юридической точки зрения подобные действия затрагивают сразу несколько институтов права.

Речь может идти одновременно:
— о нарушении исключительных прав;
— о неправомерном использовании результатов интеллектуальной деятельности;
— о нарушении режима коммерческой тайны;

— о недобросовестной конкуренции.

Поэтому рекомендации Банка России предусматривают ограничение потоков запросов, мониторинг аномальной активности, регистрацию событий и использование механизмов контроля поведения модели.

 

Инверсия модели создает риск раскрытия конфиденциальной информации

Еще одной новой категорией угроз становится модели инверсии.
При подобных атаках злоумышленник не пытается получить доступ к базе данных.

Вместо этого анализируются ответы модели.
На основании множества выходных данных возможно восстановление информации, использованной при обучении.

Если модель обучалась на персональных данных либо коммерчески значимой информации, последствия могут оказаться весьма существенными.
Именно поэтому Банк России рекомендует применять:

  • обезличивание данных;
  • маскирование информации ограниченного доступа;
  • конфиденциальные вычисления;
  • федеративное обучение;
  • контроль потоков данных;
  • шифрование информации.

По существу речь идет о распространении традиционных требований законодательства о персональных данных на весь цикл функционирования моделей искусственного интеллекта.

 

Карта угроз становится обязательным элементом корпоративного управления

Одной из наиболее практикоориентированных частей Методических рекомендаций является приложение, устанавливающее взаимосвязь между этапами жизненного цикла модели и возникающими угрозами.
Регулятор показывает, что различные угрозы проявляются на разных стадиях:

  • подготовки данных;
  • разработки модели;
  • обучения;
  • тестирования;
  • промышленной эксплуатации.

Такой подход имеет важное практическое значение.
Организация должна защищать не только уже функционирующую модель.

Контроль необходим на всех этапах ее существования — начиная с формирования обучающих выборок и заканчивая последующим дообучением и сопровождением.
Для корпоративных юристов это означает, что вопросы распределения ответственности, договорного регулирования, управления рисками и внутреннего контроля должны охватывать весь жизненный цикл системы искусственного интеллекта, а не ограничиваться эксплуатацией готового программного продукта.

Главный вывод второй части Методических рекомендаций Банка России заключается в том, что искусственный интеллект больше не рассматривается как обычное программное обеспечение. Регулятор фактически признает его самостоятельным объектом информационной безопасности, для которого требуется особая модель управления рисками, собственная система угроз и специализированные меры защиты.

Именно поэтому организациям уже сегодня необходимо пересматривать существующие процессы управления информационной безопасностью, включая в них угрозы, характерные исключительно для технологий искусственного интеллекта. Такой подход позволит не только повысить уровень операционной надежности, но и сформировать доказательственную базу добросовестного поведения в случае проверок регулятора или судебных споров.

 

В третьей части будет подробно рассмотрено, каким образом Банк России предлагает выстраивать систему защиты ИИ на уровне внутренних документов организации, какие требования предъявляются к политике информационной безопасности, каким должно быть распределение полномочий между подразделениями и почему вопросы безопасной разработки, использования открытого программного обеспечения, внешних ИИ-сервисов и проведения Red Team-тестирования становятся неотъемлемой частью корпоративного управления искусственным интеллектом.


Телеграм: t.me/ainewsline

Источник: alrf.ru

Комментарии: