Предложения относительно уязвимостей и защиты моделей машинного обучения |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-07-07 01:44 В последнее время эксперты все чаще затрагивают вопрос безопасности моделей машинного обучения и предлагают различные способы защиты. Самое время детально изучить потенциальные уязвимости и средства защиты в контексте популярных традиционных систем моделирования, таких как линейные и древовидные модели, обучаемые на статических датасетах. Хотя автор статьи не эксперт по безопасности, он очень внимательно следит за такими темами, как отладка (debugging), объяснение (explanations), объективность (fairness), интерпретируемость (interpretability) и конфиденциальность (privacy) в машинном обучении. 1. Атаки с целью искажения данных Искажение данных означает, что кто-то систематически меняет обучающие данные для манипулирования прогнозами вашей модели (такие атаки еще называют «причинно-обусловленными» атаками). Чтобы исказить данные, злоумышленник должен иметь доступ к некоторым или ко всем вашим данным для обучения. И при отсутствии должного контроля во многих компаниях такой доступ могут иметь разные сотрудники, консультанты и подрядчики. Получить несанкционированный доступ к некоторым или ко всем обучающим данным может и злоумышленник снаружи периметра безопасности. Прямая атака с целью искажения данных может включать в себя изменение меток датасета. Таким образом, каким бы ни было коммерческое применение вашей модели, злоумышленник может управлять её прогнозами, например, изменив метки, чтобы ваша модель научилась выдавать крупные кредиты, большие скидки или установила небольшие страховые взносы для злоумышленников. Вынуждение модели делать ложные прогнозы в интересах злоумышленника иногда называют нарушением «целостности» модели. Злоумышленник также может использовать искажение данных для обучения вашей модели ради преднамеренной дискриминации группы лиц, лишив их крупного кредита, больших скидок или низких страховых взносов, которые полагаются им по праву. По своей сути эта атака похожа на DDoS. Вынуждение модели делать ложные прогнозы, чтобы навредить другим, иногда называют нарушением «доступности» модели. Хотя может показаться, что исказить данные проще, чем изменить значения в существующих строках датасета, однако внести искажения можно также путем добавления в датасет на первый взгляд безобидных или лишних столбцов. Измененные значения в этих столбцах могут затем вызвать изменение прогнозов модели. Теперь давайте рассмотрим некоторые возможные защитные и экспертные (forensic) решения в случае искажения данных:
Анализ дифференцированного воздействия, анализ невязок и саморефлексия могут проводиться во время обучения и в рамках мониторинга моделей в режиме реального времени. 2. Атаки с помощью водяных знаков Водяной знак — это термин, заимствованный из литературы по безопасности глубокого обучения, в которой часто говорится о добавлении специальных пикселей в изображение для получения от вашей модели желаемого результата. Вполне можно сделать то же самое и с данными о клиентах или транзакциях. Рассмотрим сценарий, при котором сотрудник, консультант, подрядчик или злоумышленник извне имеет доступ к коду для production-использования вашей модели, делающей прогнозы в режиме реального времени. Такой человек может изменить код, чтобы распознать странное или маловероятное сочетание значений входных переменных для получения желаемого результата прогнозирования. Подобно искажению данных, атаки с помощью водяных знаков могут применяться для нарушения целостности или доступности вашей модели. Например, чтобы нарушить целостность, злоумышленник может вставить «полезную нагрузку» в код оценки для production-использования модели, в результате чего она распознает комбинацию возраста 0 лет по адресу 99, что приведёт к некоему положительному для злоумышленника прогнозу. А для блокировки доступности модели он может вставить искусственное дискриминационное правило в код оценки, что не позволит модели выдать положительные результаты для определённой группы лиц. Защитные и экспертные подходы к атакам с помощью водяных знаков могут включать в себя:
Выявление аномалий, ограничения целостности данных и анализ дифференцированного воздействия могут использоваться во время обучения и в рамках мониторинга моделей в режиме реального времени. 3. Инверсия суррогатными моделями Обычно «инверсией» называют получение несанкционированной информации из модели, а не размещение информации в ней. Также инверсия может быть примером «разведывательной обратной инженерной атаки». Если злоумышленник способен получить множество прогнозов из API вашей модели или другой конечной точки (веб-сайта, приложения и т.д.), он может обучить свою собственную суррогатную модель . Попросту говоря, это симуляция вашей прогностической модели! Теоретически, злоумышленник может обучить суррогатную модель между входными данными, использованными им для генерирования полученных прогнозов, и самими прогнозами. В зависимости от количества прогнозов, которые могут быть получены, суррогатная модель может стать достаточно точной симуляцией вашей модели. После обучения суррогатной модели у злоумышленника будет «песочница», из которой он сможет спланировать имперсонализацию (т.е. «имитацию») или атаку с состязательным примером на целостность вашей модели, или получит потенциальную возможность запустить восстановление некоторых аспектов ваших конфиденциальных обучающих данных. Суррогатные модели также могут быть обучены с использованием внешних источников данных, которые каким-то образом согласованы с вашими прогнозами, как, например, сделала ProPublica с авторской моделью рецидивизма COMPAS. Для защиты вашей модели от инверсии с помощью суррогатной модели можно опираться на такие подходы:
4. Атаки с состязательным примером В теории, целеустремленный хакер может научиться — скажем, методом проб и ошибок (т.е. «разведки» или «анализа чувствительности») — инверсии суррогатной модели или социальной инженерии, как играть с вашей моделью, чтобы получить желаемый результат прогнозирования или избежать нежелательного прогноза. Попытка достичь таких целей с использованием специально разработанной строки данных называется атакой с состязательным примером. (иногда — атакой для исследования целостности). Злоумышленник может использовать атаку с состязательным примером, чтобы получить крупный кредит или низкий страховой взнос, или избежать отказа в условно-досрочном освобождении при высокой оценке криминального риска. Некоторые называют использование состязательных примеров для исключения из прогноза нежелательного результата «уклонением». Попробуйте описанные ниже методы, чтобы защититься или выявить атаку с состязательным примером:
Анализ активации или сравнительные модели могут использоваться во время обучения и в рамках мониторинга моделей в режиме реального времени. 5. Имперсонализация Целеустремленный хакер может узнать — опять же, методом проб и ошибок, с помощью инверсии с суррогатной моделью или социальной инженерии, — какие входные данные или конкретные люди получают желаемый результат прогнозирования. Затем злоумышленник может выдать себя за этого человека, чтобы получить выгоду от прогнозирования. Атаки с имперсонализацией иногда называют «имитационными» атаками, и с точки зрения модели это напоминает хищение персональных данных. Как и в случае с атакой с состязательным примером, при имперсонализации входные данные искусственно изменяются в соответствии с вашей моделью. Но, в отличие от той же атаки с состязательным примером, при которой для обмана может быть использована потенциально случайная комбинация значений, при имперсонализации для получения прогноза, связанного с этим типом объекта, используется информация, связанная с другим смоделированным объектом (например, осужденным, клиентом, сотрудником, финансовой операцией, пациентом, продуктом и т. д.). Допустим, злоумышленник может узнать, от каких характеристик вашей модели зависит предоставление больших скидок или льгот. Тогда он может фальсифицировать используемую вами информацию, чтобы получить такую скидку. Злоумышленник может поделиться своей стратегией с другими, что может привести к большим потерям для вашей компании. Если вы используете двухступенчатую модель, то остерегайтесь «аллергической» атаки: злоумышленник может имитировать строку обычных входных данных для первого этапа вашей модели, чтобы атаковать второй её этап. Защитные и экспертные подходы для атак с имперсонализацией могут включать в себя:
Анализ активации, проверка на наличие дублей и функции уведомления о возможных угрозах могут использоваться во время обучения и в рамках мониторинга моделей в режиме реального времени. 6. Общие проблемы Некоторые распространенные схемы использования машинного обучения также влекут более общие проблемы безопасности. Черные ящики и ненужная сложность . Хотя последние достижения в области интерпретируемых моделей и объяснения моделей позволяют использовать точные и прозрачные нелинейные классификаторы и регрессоры, многие процессы машинного обучения по-прежнему сосредоточены на моделях типа «чёрный ящик». Они являются лишь одним из видов зачастую излишней сложности в стандартном рабочем процессе коммерческого машинного обучения. Другими примерами потенциально вредной сложности могут быть чрезмерно экзотичные технические характеристики или большое количество пакетных зависимостей. Это может представлять проблему, по крайней мере, по двум причинам:
Распределенные системы и модели . К счастью или к сожалению, мы живем в век больших данных. Многие организации сегодня используют распределенные системы обработки данных и машинного обучения. Распределенные вычисления могут представлять собой большую цель для атаки изнутри или извне. Данные могут быть искажены только на одном или на нескольких рабочих узлах большой распределенной системы хранения или обработки данных. «Черный ход» для водяных знаков может быть закодирован в одну модель большого ансамбля. Вместо отладки одного простого датасета или модели специалисты-практики теперь должны изучать данные или модели, разбросанные по крупным вычислительным кластерам. Распределенные атаки типа «отказ в обслуживании» (DDoS) . Если сервис прогнозного моделирования играет ключевую роль в деятельности вашей организации, убедитесь, что вы учли хотя бы самые популярные распределенные DDoS-атаки, когда злоумышленники атакуют прогностическую службу невероятно большим количеством запросов, чтобы задержать или остановить выдачу прогнозов для законных пользователей. 7. Общие решения Можно использовать несколько общих, старых и новых, наиболее эффективных методов для снижения уязвимости системы безопасности и повышения справедливости, контролируемости, прозрачности и доверия к системам машинного обучения. Авторизованный доступ и регулирование частоты (throttling) прогнозирования . Стандартные средства защиты, такие как дополнительная аутентификация и регулирование частоты прогнозирования, могут быть весьма эффективными при препятствовании ряду векторов атак, описанных в разделах 1-5. Сравнительные модели . В качестве сравнительной модели для определения того, производились ли с прогнозом какие-либо манипуляции, можно использовать старый и проверенный конвейер моделирования или другой интерпретируемый инструмент прогнозирования с высокой прозрачностью. К манипуляциям относится искажение данных, атаки с помощью водяных знаков или атаки с состязательным примером. Если разница между прогнозом вашей проверенной модели и прогнозом более сложной и непрозрачной модели слишком велика, запишите такие случаи. Направьте их аналитикам или примите другие меры для анализа или исправления положения. Необходимо принимать серьёзные меры предосторожности, чтобы гарантировать, что ваша сравнительная модель и конвейер остаются безопасными и неизменными по сравнению с их первоначальным, надёжным состоянием. Интерпретируемые, fair- или private-модели. В настоящее время существуют методы (например, монотонные GBM (M-GBM), масштабируемые Байесовские списки правил (SBRL) объясняемые нейронные сети (XNN), которые обеспечивают как точность, так и интерпретируемость. Эти точные и интерпретируемые модели легче документировать и отлаживать, чем классические «чёрные ящики» машинного обучения. Более новые типы fair- и private-моделей (например, LFR, PATE) также могут быть обучены тому, как меньше обращать внимание на видимые снаружи, демографические характеристики, которые доступны для наблюдения, применения с помощью социальной инженерии в ходе атаке с состязательным примером или имперсонализирования. Вы рассматриваете возможность создания нового процесса машинного обучения в будущем? Подумайте о том, чтобы построить его на основе менее рискованных интерпретируемых private- или fair-моделей. Они легче отлаживаются и потенциально устойчивы к изменениям в характеристиках отдельных объектов. Отладка модели для обеспечения безопасности. Новая областьотладки моделей посвящена обнаружению ошибок в механизмах и прогнозах моделей машинного обучения и их исправлению. Инструменты отладки, такие как суррогатные модели, анализ невязок и анализ чувствительности, могут быть использованы в «белых» испытаниях для выявления ваших уязвимостей, или в аналитических упражнениях для выявления любых потенциальных атак, которые могут произойти или происходят. Документирование модели и методы объяснения. Документирование модели — это стратегия снижения рисков, десятилетиями используемая в банковской деятельности. Она позволяет сохранять и передавать знания о сложных системах моделирования по мере изменения состава владельцев моделей. Традиционно документирование применялось для линейных моделей высокой прозрачности. Но с появлением мощных, точных инструментов объяснения (таких как дерево SHAP и основанные на производных атрибуты локальных функций для нейронных сетей) ранее существовавшие рабочие процессы моделей типа «чёрный ящик» могут быть хотя бы немного объяснены, отлажены и документированы. Очевидно, что теперь документация должна включать в себя все цели обеспечения безопасности, включая известные, исправленные или ожидаемые уязвимости. Мониторинг и управление моделями непосредственно в целях безопасности. Серьёзные специалисты-практики понимают, что большинство моделей обучены на статических «моментальных снимках» реальности в виде датасетов, и что в режиме реального времени точность прогнозов снижается, поскольку текущее положение вещей всё больше отдаляется от собранной ранее информации. Сегодня мониторинг большинства моделей направлен на выявление такого смещения в распределении входных переменных, который, в конечном итоге, приведёт к снижению точности. Мониторинг моделей должен быть разработан для отслеживания атак, описанных в разделах 1 — 5, и любых других потенциальных угроз, которые выявляются при отладке вашей модели. Хотя это не всегда напрямую связано с безопасностью, также следует в режиме реального времени оценивать модели на предмет дифференцированного воздействия. Наряду с документацией моделей, все артефакты моделирования, исходный код и связанные с ними метаданные должны управляться, контролироваться по версиям и проверяться на безопасность, как и ценные коммерческие активы, которыми они и являются. Функции уведомления о возможных угрозах. Функции, правила и этапы предварительной или последующей обработки могут быть включены в ваши модели или процессы, оснащённые средствами уведомления о возможных угрозах: например, о количестве аналогичных строк в модели; о том, представляет ли текущая строка сотрудника, подрядчика или консультанта; аналогичны ли значения в текущей строке тем значениям, что получены при «белых» атаках с состязательным примером. Эти функции могут понадобиться — а могут и не понадобиться — при первом обучении модели. Но сохранение места для них может однажды очень пригодиться при оценке новых данных или при последующем переобучении модели. Источник: m.vk.com Комментарии: |
|