Jukebox: нейросеть от OpenAI генерирует песни

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Jukebox — это нейросетевая модель от OpenAI, которая генерирует песни. Модель принимает на вход жанр, артиста и текст песни. На выходе нейросеть отдает аудиозапись с сгенерированной песней. Примеры сгенерированных аудио доступны по ссылке.

Что внутри модели

Автоэнкодер в Jukebox сжимает аудиозапись в дискретное пространство с помощью VQ-VAE модели. VQ-VAE основана на квантизации. Иерархическая VQ-VAE может генерировать короткие инструментальные куски аудио из небольшого набора инструментов. Jukebox в основе имеет архитектуру, которая схожа с VQ-VAE-2. 

Исследователи используют три уровня в VQ-VAE, которые сжимают аудиозапись в 8, 32 и 128 раз соответственно. Такой даунсемплинг теряет большую часть деталей аудио, но сохраняет базовую информацию о тоне, тембре и громкости аудио.

Подход состоит из двух этапов:

  • Каждый уровень VQ-VAE независимо кодирует входную аудиозапись;
  • Чтобы сгенерировать новые песни, набор трансформеров генерирует кода с верхнего по нижний уровни. Затем нижний декодер конвертирует их в итоговую аудиозапись

Данные для обучения

Модель обучали на собранном в сети датасете из 1.2 миллионов песен. Половина из них на английском языке. Для каждой аудиозаписи доступны метаданные и текст песни из LyricWiki. Метаданные включают в себя артиста, жанр, год публикации песни и ключевые слова настроения песни.


Источник: neurohive.io

Комментарии: