Искусственный интеллект обучается на изображениях реальных детей без согласия

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


«Любой ребенок, у которого есть какие-либо фотографии или видео в Интернете, теперь подвергается риску».

В новом отчёте, опубликованном Human Rights Watch, показано, что широко используемый набор данных для обучения ИИ, размещенный в Интернете, включает изображения и информацию о реальных детях — это означает, что генеративные инструменты ИИ обучались на данных, принадлежащих реальным детям, без их ведома или согласия. Наблюдательная группа утверждает, что обнаружила более 170 прослеживаемых фотографий реальных бразильских детей в наборе данных LAION-5B image-text, который состоит из данных, собранных из хранилища веб-контента Common Crawl и использованных для обучения моделей ИИ, включая генератор изображений Stability AI's Stable Diffusion. Согласно отчету, некоторые из найденных фотографий сопровождались тревожной информацией. Например, одно изображение двухлетней девочки и ее младшей сестры содержало подробную информацию об именах детей и «точном месте» их рождения. Фотографии также охватывают десятилетия: как отмечает Wired, изображения были взяты «из материалов, как опубликованных в 2023 году, так и в середине 1990-х годов». То, что ИИ вообще обучается на скопированных в Интернете изображениях детей, на первый взгляд, является откровением, которое вызывает серьезные опасения по поводу конфиденциальности. Добавьте к этому, что инструменты ИИ, обученные на этих данных, используются для создания такого контента, как глубокие фейки без согласия и поддельные материалы о сексуальном насилии над детьми и этот вывод проливает свет на особенно мрачную реальность процессов обучения ИИ и конечного контента, для создания которого могут использоваться модели ИИ.

«Их конфиденциальность нарушается в первую очередь, когда их фотографии сканируются и попадают в эти наборы данных», — рассказала Wired исследовательница по правам детей и технологиям Хьюман Райтс Вотч Хе Юнг Хан, нашедшая изображения. «Затем эти инструменты искусственного интеллекта обучаются на этих данных и, следовательно, могут создавать реалистичные изображения детей». «Технология разработана таким образом, что любой ребенок, у которого есть фото или видео в Интернете, теперь подвергается риску, — продолжает Хан, — потому что любой злоумышленник может взять эту фотографию, а затем использовать эти инструменты, чтобы манипулировать ими, как ему вздумается», т.е. заставляя изображения говорить или делать то, чего реальные люди никогда не говорили и не делали.

По меньшей мере 85 девочек из Алагоаса, Минас-Жерайса, Пернамбуку, Рио-де-Жанейро, Риу-Гранди-ду-Сул и Сан-Паулу сообщили о домогательствах со стороны их одноклассников, которые использовали инструменты искусственного интеллекта для создания откровенных сексуальных подделок девочек на основе фотографий, взятых из их профилей в социальных сетях, а затем распространили поддельные изображения в Интернете.

Также стоит отметить, что многие из обнаруженных изображений были взяты из веб-контента, на который мало кто когда-либо наткнулся бы в Интернете, например, записи в личном блоге или кадры из видеороликов YouTube с крайне низким количеством просмотров. Другими словами, ИИ обучается на контенте, который не обязательно был предназначен для массового распространения.

Большинство из этих изображений невозможно было найти в Интернете с помощью обратного поиска, утверждают исследователи.

LAION, некоммерческая исследовательская группа в области искусственного интеллекта, создавшая LAION-5B, подтвердила Wired, что удалила помеченные фотографии из набора данных.

Но это вряд ли вершина айсберга: как отмечается в предупреждении Human Rights Watch, группа изучила «менее 0,0001 процента из 5,85 миллиарда изображений и подписей к ним, содержащихся в наборе данных», а это значит, что цифра 170+, скорее всего, «значительно занижает общий объем персональных данных детей», использованных только в LAION-5B.

Что касается истории размещения материалов в Интернете, то можно с уверенностью сказать, что мало кто из постеров ожидал, что их размышления, изображения и видео — особенно те, которыми поделились до 2023 года, — попадут в модели искусственного интеллекта, требующие больших данных.

Однако реальность такова, что это произошло, причем в значительной степени без чьего-либо прямого ведома или согласия.

И хотя компании, занимающиеся разработкой искусственного интеллекта, проявили себя очень либерально в отношении того, что они считают добросовестным использованием, использование данных несовершеннолетних без согласия выходит далеко за рамки этической «серой зоны» (зоны неопределённости).

«Дети не должны жить в страхе, — говорит Хан, — что их фотографии могут быть украдены и использованы против них».

«Генеративный ИИ — это еще только зарождающаяся технология, и связанный с ней вред, который уже испытывают дети, не является неизбежным», — продолжает Хан. «Защита конфиденциальности данных детей сейчас поможет сформировать такую технологию, которая будет способствовать развитию прав детей, а не нарушать их».

По материалам:
futurism.com www.hrw.org

Больше интересных статей, которые я не успеваю переводить, но которые можно почитать через онлайн-перевод, можно найти здесь: t.me/murrrzio При перепечатке материалов прошу оставлять гиперссылку на наш портал, желательно непосредственно на адрес новости.


Источник: newsstreet.ru

Комментарии: