Компании используют ворованные транскрипты видео с YouTube для тренировки ИИ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Популярные генеративные модели обучены на видео с YouTube без согласия авторов этих видео, сообщает Proof News. Среди людей, на чьих видео обучались нейронки, оказались популярные блогеры — MrBeast, Маркус Браунли, PewDiePie.

Исследователи нашли субтитры из 170 тысяч видео и утверждают, что на этих данных обучались в том числе нейронки от Apple, Anthropic, Nvidia и Salesforce. В датасет попали 48 тысяч ютуб-каналов.

Проблемным оказался датасет The Pile от некоммерческой организации EleutherAI. По задумке, туда должны были попадать материалы из открытого доступа — некоторые книги, статьи «Википедии» и т.д. На деле же туда попали и видео блогеров (которые с них получают монетизацию и совершенно точно не разрешали их распространять как-то иначе), и видео иностранных СМИ. Proof News сделало открытый инструмент, на котором каждый может проверить, есть ли его видео в наборах данных для тренировки ИИ. Видео с канала Wylsacom мы там не нашли.

Интереснее всего в этой ситуации реакция Google. В правилах YouTube сказано, что использование видео для обучения ИИ — это нарушение условий использования платформы. Но пока что YouTube ситуацию не комментирует. Что будет с компанией EleutherAI, которая явно не обращалась к каждому конкретному автору видео, чтобы включить его работу в датасет, тоже неясно.

Ранее, кстати, в массивах данных для обучения нейронок находили кучу авторского контента: и иллюстрации, и картины, и скриншоты из фильмов, и тексты из новостных изданий.


Источник: vk.com

Комментарии: