Компании используют ворованные транскрипты видео с YouTube для тренировки ИИ

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2024-07-19 11:29

алгоритмы машинного обучения, искусственный интеллект

Популярные генеративные модели обучены на видео с YouTube без согласия авторов этих видео, сообщает Proof News. Среди людей, на чьих видео обучались нейронки, оказались популярные блогеры — MrBeast, Маркус Браунли, PewDiePie.

Исследователи нашли субтитры из 170 тысяч видео и утверждают, что на этих данных обучались в том числе нейронки от Apple, Anthropic, Nvidia и Salesforce. В датасет попали 48 тысяч ютуб-каналов.

Проблемным оказался датасет The Pile от некоммерческой организации EleutherAI. По задумке, туда должны были попадать материалы из открытого доступа — некоторые книги, статьи «Википедии» и т.д. На деле же туда попали и видео блогеров (которые с них получают монетизацию и совершенно точно не разрешали их распространять как-то иначе), и видео иностранных СМИ. Proof News сделало открытый инструмент, на котором каждый может проверить, есть ли его видео в наборах данных для тренировки ИИ. Видео с канала Wylsacom мы там не нашли.

Интереснее всего в этой ситуации реакция Google. В правилах YouTube сказано, что использование видео для обучения ИИ — это нарушение условий использования платформы. Но пока что YouTube ситуацию не комментирует. Что будет с компанией EleutherAI, которая явно не обращалась к каждому конкретному автору видео, чтобы включить его работу в датасет, тоже неясно.

Ранее, кстати, в массивах данных для обучения нейронок находили кучу авторского контента: и иллюстрации, и картины, и скриншоты из фильмов, и тексты из новостных изданий.

Источник: vk.com



		Компании используют ворованные транскрипты видео с YouTube для тренировки ИИ
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-07-19 11:29 алгоритмы машинного обучения, искусственный интеллект Популярные генеративные модели обучены на видео с YouTube без согласия авторов этих видео, сообщает Proof News. Среди людей, на чьих видео обучались нейронки, оказались популярные блогеры — MrBeast, Маркус Браунли, PewDiePie. Исследователи нашли субтитры из 170 тысяч видео и утверждают, что на этих данных обучались в том числе нейронки от Apple, Anthropic, Nvidia и Salesforce. В датасет попали 48 тысяч ютуб-каналов. Проблемным оказался датасет The Pile от некоммерческой организации EleutherAI. По задумке, туда должны были попадать материалы из открытого доступа — некоторые книги, статьи «Википедии» и т.д. На деле же туда попали и видео блогеров (которые с них получают монетизацию и совершенно точно не разрешали их распространять как-то иначе), и видео иностранных СМИ. Proof News сделало открытый инструмент, на котором каждый может проверить, есть ли его видео в наборах данных для тренировки ИИ. Видео с канала Wylsacom мы там не нашли. Интереснее всего в этой ситуации реакция Google. В правилах YouTube сказано, что использование видео для обучения ИИ — это нарушение условий использования платформы. Но пока что YouTube ситуацию не комментирует. Что будет с компанией EleutherAI, которая явно не обращалась к каждому конкретному автору видео, чтобы включить его работу в датасет, тоже неясно. Ранее, кстати, в массивах данных для обучения нейронок находили кучу авторского контента: и иллюстрации, и картины, и скриншоты из фильмов, и тексты из новостных изданий. Источник: vk.com Комментарии:

Компании используют ворованные транскрипты видео с YouTube для тренировки ИИ

Комментарии: