Искусственный интеллект обучается на изображениях реальных детей без согласия

2024-06-13 11:32

«Любой ребенок, у которого есть какие-либо фотографии или видео в Интернете, теперь подвергается риску».

В новом отчёте, опубликованном Human Rights Watch, показано, что широко используемый набор данных для обучения ИИ, размещенный в Интернете, включает изображения и информацию о реальных детях — это означает, что генеративные инструменты ИИ обучались на данных, принадлежащих реальным детям, без их ведома или согласия. Наблюдательная группа утверждает, что обнаружила более 170 прослеживаемых фотографий реальных бразильских детей в наборе данных LAION-5B image-text, который состоит из данных, собранных из хранилища веб-контента Common Crawl и использованных для обучения моделей ИИ, включая генератор изображений Stability AI's Stable Diffusion. Согласно отчету, некоторые из найденных фотографий сопровождались тревожной информацией. Например, одно изображение двухлетней девочки и ее младшей сестры содержало подробную информацию об именах детей и «точном месте» их рождения. Фотографии также охватывают десятилетия: как отмечает Wired, изображения были взяты «из материалов, как опубликованных в 2023 году, так и в середине 1990-х годов». То, что ИИ вообще обучается на скопированных в Интернете изображениях детей, на первый взгляд, является откровением, которое вызывает серьезные опасения по поводу конфиденциальности. Добавьте к этому, что инструменты ИИ, обученные на этих данных, используются для создания такого контента, как глубокие фейки без согласия и поддельные материалы о сексуальном насилии над детьми и этот вывод проливает свет на особенно мрачную реальность процессов обучения ИИ и конечного контента, для создания которого могут использоваться модели ИИ.

«Их конфиденциальность нарушается в первую очередь, когда их фотографии сканируются и попадают в эти наборы данных», — рассказала Wired исследовательница по правам детей и технологиям Хьюман Райтс Вотч Хе Юнг Хан, нашедшая изображения. «Затем эти инструменты искусственного интеллекта обучаются на этих данных и, следовательно, могут создавать реалистичные изображения детей». «Технология разработана таким образом, что любой ребенок, у которого есть фото или видео в Интернете, теперь подвергается риску, — продолжает Хан, — потому что любой злоумышленник может взять эту фотографию, а затем использовать эти инструменты, чтобы манипулировать ими, как ему вздумается», т.е. заставляя изображения говорить или делать то, чего реальные люди никогда не говорили и не делали.

По меньшей мере 85 девочек из Алагоаса, Минас-Жерайса, Пернамбуку, Рио-де-Жанейро, Риу-Гранди-ду-Сул и Сан-Паулу сообщили о домогательствах со стороны их одноклассников, которые использовали инструменты искусственного интеллекта для создания откровенных сексуальных подделок девочек на основе фотографий, взятых из их профилей в социальных сетях, а затем распространили поддельные изображения в Интернете.

Также стоит отметить, что многие из обнаруженных изображений были взяты из веб-контента, на который мало кто когда-либо наткнулся бы в Интернете, например, записи в личном блоге или кадры из видеороликов YouTube с крайне низким количеством просмотров. Другими словами, ИИ обучается на контенте, который не обязательно был предназначен для массового распространения.

Большинство из этих изображений невозможно было найти в Интернете с помощью обратного поиска, утверждают исследователи.

LAION, некоммерческая исследовательская группа в области искусственного интеллекта, создавшая LAION-5B, подтвердила Wired, что удалила помеченные фотографии из набора данных.

Но это вряд ли вершина айсберга: как отмечается в предупреждении Human Rights Watch, группа изучила «менее 0,0001 процента из 5,85 миллиарда изображений и подписей к ним, содержащихся в наборе данных», а это значит, что цифра 170+, скорее всего, «значительно занижает общий объем персональных данных детей», использованных только в LAION-5B.

Что касается истории размещения материалов в Интернете, то можно с уверенностью сказать, что мало кто из постеров ожидал, что их размышления, изображения и видео — особенно те, которыми поделились до 2023 года, — попадут в модели искусственного интеллекта, требующие больших данных.

Однако реальность такова, что это произошло, причем в значительной степени без чьего-либо прямого ведома или согласия.

И хотя компании, занимающиеся разработкой искусственного интеллекта, проявили себя очень либерально в отношении того, что они считают добросовестным использованием, использование данных несовершеннолетних без согласия выходит далеко за рамки этической «серой зоны» (зоны неопределённости).

«Дети не должны жить в страхе, — говорит Хан, — что их фотографии могут быть украдены и использованы против них».

«Генеративный ИИ — это еще только зарождающаяся технология, и связанный с ней вред, который уже испытывают дети, не является неизбежным», — продолжает Хан. «Защита конфиденциальности данных детей сейчас поможет сформировать такую технологию, которая будет способствовать развитию прав детей, а не нарушать их».

По материалам:
futurism.com www.hrw.org

Больше интересных статей, которые я не успеваю переводить, но которые можно почитать через онлайн-перевод, можно найти здесь: t.me/murrrzio При перепечатке материалов прошу оставлять гиперссылку на наш портал, желательно непосредственно на адрес новости.

Источник: newsstreet.ru



		Искусственный интеллект обучается на изображениях реальных детей без согласия
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-06-13 11:32 угроза искусственного интеллекта «Любой ребенок, у которого есть какие-либо фотографии или видео в Интернете, теперь подвергается риску». В новом отчёте, опубликованном Human Rights Watch, показано, что широко используемый набор данных для обучения ИИ, размещенный в Интернете, включает изображения и информацию о реальных детях — это означает, что генеративные инструменты ИИ обучались на данных, принадлежащих реальным детям, без их ведома или согласия. Наблюдательная группа утверждает, что обнаружила более 170 прослеживаемых фотографий реальных бразильских детей в наборе данных LAION-5B image-text, который состоит из данных, собранных из хранилища веб-контента Common Crawl и использованных для обучения моделей ИИ, включая генератор изображений Stability AI's Stable Diffusion. Согласно отчету, некоторые из найденных фотографий сопровождались тревожной информацией. Например, одно изображение двухлетней девочки и ее младшей сестры содержало подробную информацию об именах детей и «точном месте» их рождения. Фотографии также охватывают десятилетия: как отмечает Wired, изображения были взяты «из материалов, как опубликованных в 2023 году, так и в середине 1990-х годов». То, что ИИ вообще обучается на скопированных в Интернете изображениях детей, на первый взгляд, является откровением, которое вызывает серьезные опасения по поводу конфиденциальности. Добавьте к этому, что инструменты ИИ, обученные на этих данных, используются для создания такого контента, как глубокие фейки без согласия и поддельные материалы о сексуальном насилии над детьми и этот вывод проливает свет на особенно мрачную реальность процессов обучения ИИ и конечного контента, для создания которого могут использоваться модели ИИ. «Их конфиденциальность нарушается в первую очередь, когда их фотографии сканируются и попадают в эти наборы данных», — рассказала Wired исследовательница по правам детей и технологиям Хьюман Райтс Вотч Хе Юнг Хан, нашедшая изображения. «Затем эти инструменты искусственного интеллекта обучаются на этих данных и, следовательно, могут создавать реалистичные изображения детей». «Технология разработана таким образом, что любой ребенок, у которого есть фото или видео в Интернете, теперь подвергается риску, — продолжает Хан, — потому что любой злоумышленник может взять эту фотографию, а затем использовать эти инструменты, чтобы манипулировать ими, как ему вздумается», т.е. заставляя изображения говорить или делать то, чего реальные люди никогда не говорили и не делали. По меньшей мере 85 девочек из Алагоаса, Минас-Жерайса, Пернамбуку, Рио-де-Жанейро, Риу-Гранди-ду-Сул и Сан-Паулу сообщили о домогательствах со стороны их одноклассников, которые использовали инструменты искусственного интеллекта для создания откровенных сексуальных подделок девочек на основе фотографий, взятых из их профилей в социальных сетях, а затем распространили поддельные изображения в Интернете. Также стоит отметить, что многие из обнаруженных изображений были взяты из веб-контента, на который мало кто когда-либо наткнулся бы в Интернете, например, записи в личном блоге или кадры из видеороликов YouTube с крайне низким количеством просмотров. Другими словами, ИИ обучается на контенте, который не обязательно был предназначен для массового распространения. Большинство из этих изображений невозможно было найти в Интернете с помощью обратного поиска, утверждают исследователи. LAION, некоммерческая исследовательская группа в области искусственного интеллекта, создавшая LAION-5B, подтвердила Wired, что удалила помеченные фотографии из набора данных. Но это вряд ли вершина айсберга: как отмечается в предупреждении Human Rights Watch, группа изучила «менее 0,0001 процента из 5,85 миллиарда изображений и подписей к ним, содержащихся в наборе данных», а это значит, что цифра 170+, скорее всего, «значительно занижает общий объем персональных данных детей», использованных только в LAION-5B. Что касается истории размещения материалов в Интернете, то можно с уверенностью сказать, что мало кто из постеров ожидал, что их размышления, изображения и видео — особенно те, которыми поделились до 2023 года, — попадут в модели искусственного интеллекта, требующие больших данных. Однако реальность такова, что это произошло, причем в значительной степени без чьего-либо прямого ведома или согласия. И хотя компании, занимающиеся разработкой искусственного интеллекта, проявили себя очень либерально в отношении того, что они считают добросовестным использованием, использование данных несовершеннолетних без согласия выходит далеко за рамки этической «серой зоны» (зоны неопределённости). «Дети не должны жить в страхе, — говорит Хан, — что их фотографии могут быть украдены и использованы против них». «Генеративный ИИ — это еще только зарождающаяся технология, и связанный с ней вред, который уже испытывают дети, не является неизбежным», — продолжает Хан. «Защита конфиденциальности данных детей сейчас поможет сформировать такую технологию, которая будет способствовать развитию прав детей, а не нарушать их». По материалам: futurism.com www.hrw.org Больше интересных статей, которые я не успеваю переводить, но которые можно почитать через онлайн-перевод, можно найти здесь: t.me/murrrzio При перепечатке материалов прошу оставлять гиперссылку на наш портал, желательно непосредственно на адрес новости. Источник: newsstreet.ru Комментарии:

Искусственный интеллект обучается на изображениях реальных детей без согласия

Комментарии: