Синтетические данные и федеративное обучение моделей ИИ как альтернатива обезличиванию персональных данных

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


С этой темой на заседании Юридического клуба Банка России выступил управляющий партнёр, руководитель практики Corporate | M&A, кросс-направления работы со стартапами «Инноправо» Игорь Терещенко.

Модератор клуба - Ионцев М.А., руководитель направления по правовому сопровождению цифровизации финансового рынка Банка России.

Федеративное обучение – это альтернативный способ организации процесса обучения моделей ИИ без передачи исходных данных.

Обучение осуществляется на локальных серверах различных организаций, при этом обмен информацией происходит не самими данными, а параметрами моделей.

Такое обучение даёт разработчикам доступ к более богатым наборам данных без легальных осложнений.

Это позвояет:

децентрализовать данные;

предоставить доступ к большим объёмам данных;

снизить затраты на передачу данных;

обеспечить персонализацию и конфиденциальность.

Синтетические данные – это искусственно сгенерированные наборы, которые по статистическим характеристикам близки к реальным,

но не содержат информации о пользователях клиентов компании, которая использует ИИ.

Синтетические данные – это не вид обезличенных персональных данных, а лишь альтернатива обезличивания, ведь сейчас наблюдаются проблемы с обезличиванием. Законодательно закреплены стандарты обезличивания, но они всё равно остаются персональными данными в соответствии с №152-ФЗ. Именно поэтому синтетические данные рассматриваются как отдельный вид.

При работе с такими данными необходимо соблюдать ряд принципов:

1) минимизация данных;

2) прозрачность (т.е. доверие доверие и предсказуемость систем);

3) недискриминация (т.е. валидация алгоритмов так, чтобы они не дискриминировали пользователей.

По статистике всего 10% реальных персональных данных в общем датасете достаточно для эффективной работы моделей ИИ. 90% могут быть синтетическими.

Сегодня в России разрабатывается национальный стандарт синтеза данных - ПНС 1.11.164-1.363.25 «Синтез данных. Термины и определения».

Разработчикам необходимо решить целый ряд трудностей, связанный с рисками при тренировке моделей ИИ. Федеративное обучение и синтетические данные позволяют минимизировать угрозы, но не избавляют от них на 100%.


Источник: vk.com

Комментарии: