Как защитить датасет от кражи и доказать, что сеть обучена именно на ваших данных

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Представьте: вы полгода работали над новым алгоритмом машинного обучения и наконец на прошлой неделе выкатили его в продакшен. Ваш сервис стал работать лучше — пользователи довольны, конкуренты могут позавидовать. А сегодня утром компания N тоже обновила свой сервис, и он ведет себя подозрительно похоже на ваш. О том, что делать в таких ситуациях, рассказывают коллеги из исследовательской группы Яндекса.

— Что бы это могло быть: конкуренты постарались не хуже вас и пришли к тем же результатам или в день релиза они вас взломали и украли модель? А может быть, инженер Вася, который ушел от вас к конкурентам два месяца назад, случайно унес с собой все данные?

Этим вопросам посвящена целая область исследований глубинного обучения — watermarking (нанесение цифровых водяных знаков на модели машинного обучения). Исследователи уже давно умеют помечать нейросети водяными знаками, которые при необходимости позволят доказать факт кражи обученной модели. Но недавно они решили пойти еще дальше — на конференции ICML 2020 была представлена интересная работа, в которой авторы предложили подобным образом помечать датасеты.

Предположим, у вас есть ценный датасет картинок. К этим картинкам можно добавить визуально неразличимый «шум», не влияющий на качество обученной модели. Однако, если ваш конкурент украдет помеченный датасет и обучит по ним свою модель, вы сможете с помощью специального теста доказать, что нейросеть обучена именно на ваших данных. Такой тест будет работать, даже если вашу выборку аугментировали или домешали в нее другой «чистый» датасет. Сам «шум» получается нехитрой оптимизационной процедурой, по сложности сравнимой с обучением нейросети.

Пока перед нами только прототип, proof of concept с существенными ограничениями. Например, предложенный алгоритм работает только на непрерывных входах (т. е. на картинках, а не тексте) и требует от вас примерно угадать семейство нейросетевых архитектур и аугментаций, которыми воспользуется ваш условный противник.

Здесь вы можете прочитать научную статью целиком: https://proceedings.icml.cc/static/paper_files/icml/2020/3974-Paper.pdf

(Фото к посту мы взяли из оригинала статьи. В верхнем ряду — картинки с водяными знаками, посередине — эти же водяные знаки, увеличенные в пять раз.)


Источник: proceedings.icml.cc

Комментарии: