Новый ИИ синтезирует звуки, которых люди ранее не слышали???

2024-11-29 12:47

Компания Nvidia представила Fugatto — музыкальный ИИ, который способен создавать звуки и композиции, ранее не слышанные человеком. Это могут быть мяукающие трубы или саксофон, звучащий как собака. Инструмент использует текстовые и аудиоописания для генерации музыки, синтеза необычных звуков, трансформации голоса и редактирования мелодий.

Fugatto был обучен на основе 20 миллионов аудиообразцов, обработанных с помощью системы ComposableART. Эта технология позволяет комбинировать характеристики разных звуков, создавая новые уникальные звучания. Nvidia уверена, что Fugatto станет ценным инструментом для музыкантов и аудиохудожников, открывая новые горизонты для творчества.

Fugatto способен создавать музыкальные композиции, основанные на необычных запросах. Например, можно попросить систему сгенерировать звучание саксофона, имитирующее лай собаки, а затем плавно переходящее в электронную музыку. Также система может создавать совершенно новые звуки, основываясь на подробных описаниях, таких как «глубокий гул баса, чередующийся с высокими цифровыми писками, напоминающими звуки пробуждающейся машины».

Инструмент способен трансформировать звучание человеческого голоса, изменяя акцент или придавая ему различные эмоциональные оттенки, такие как гнев или спокойствие. Кроме того, Fugatto позволяет редактировать музыкальные композиции: выделять вокальные партии, добавлять новые инструменты и даже изменять мелодию, заменяя, например, фортепиано на оперное соло.

Это стало возможным благодаря особому подходу к обучению модели. Исследователи Nvidia отмечают, что создание набора данных для тренировки нейросети, способной связывать звуки и слова, представляет собой сложную задачу. Обычно нейросети учатся понимать текстовые инструкции, но когда речь заходит о звуках, им требуется более точная подсказка. Чтобы решить эту проблему, ученые использовали специальную программу (скрипт на языке Python), которая генерировала большое количество инструкций для создания разнообразных звуковых образов. Эти описания включали как абсолютные характеристики, такие как «синтезировать грустный голос», так и относительные, например, «увеличить грусть в голосе».

Большинство общедоступных аудиозаписей, использованных для обучения Fugatto, не содержат подробной информации о заложенных эмоциях или о том, как звучит голос. Поэтому ученые разработали способ автоматически описывать звуки словами. Например, они могли охарактеризовать звук как «веселый», «грустный» или «громкий». Кроме того, использовались специальные инструменты для извлечения числовых характеристик из аудио, которые помогают понять его устройство.

После обработки обширной коллекции открытых аудиоданных исследователи сформировали детально аннотированный набор данных, включающий 20 миллионов отдельных аудиообразцов общей продолжительностью более 50 000 часов. На основе этого набора с использованием 32 тензорных ядер Nvidia была обучена модель с 2,5 млрд параметров. ИИ продемонстрировал высокую точность в тестах качества звука.

В Fugatto интегрирована система ComposableART, которая позволяет создавать новые звуки, комбинируя различные характеристики, извлеченные из обучающих данных. Эта система генерирует звуки, не встречавшиеся в обучающей выборке, поскольку сочетает несочетаемое. Например, звучание скрипки смешивается со смехом ребенка, а шум дождя — с банджо. Нейросеть рассматривает каждую отдельную аудиохарактеристику как непрерывный спектр, а не как дискретное значение. Так, при создании звукового образа, совмещающего звучание акустической гитары и журчащей воды, конечный результат будет зависеть от того, какая из этих характеристик будет преобладать в «смеси», создаваемой Fugatto.

Nvidia считает, что инструмент будет полезен в различных сферах — от создания музыки до разработки новых звуковых эффектов для игр. Разработчики подчеркивают, что модель не является заменой музыкантов, а скорее новым инструментом для аудиохудожников. Правда, пока Fugatto не доступен для публичного тестирования, но представители компании уверяют, что скоро предоставят к нему доступ.

Источник: vk.com



		Новый ИИ синтезирует звуки, которых люди ранее не слышали???
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-11-29 12:47 искусственный интеллект Компания Nvidia представила Fugatto — музыкальный ИИ, который способен создавать звуки и композиции, ранее не слышанные человеком. Это могут быть мяукающие трубы или саксофон, звучащий как собака. Инструмент использует текстовые и аудиоописания для генерации музыки, синтеза необычных звуков, трансформации голоса и редактирования мелодий. Fugatto был обучен на основе 20 миллионов аудиообразцов, обработанных с помощью системы ComposableART. Эта технология позволяет комбинировать характеристики разных звуков, создавая новые уникальные звучания. Nvidia уверена, что Fugatto станет ценным инструментом для музыкантов и аудиохудожников, открывая новые горизонты для творчества. Fugatto способен создавать музыкальные композиции, основанные на необычных запросах. Например, можно попросить систему сгенерировать звучание саксофона, имитирующее лай собаки, а затем плавно переходящее в электронную музыку. Также система может создавать совершенно новые звуки, основываясь на подробных описаниях, таких как «глубокий гул баса, чередующийся с высокими цифровыми писками, напоминающими звуки пробуждающейся машины». Инструмент способен трансформировать звучание человеческого голоса, изменяя акцент или придавая ему различные эмоциональные оттенки, такие как гнев или спокойствие. Кроме того, Fugatto позволяет редактировать музыкальные композиции: выделять вокальные партии, добавлять новые инструменты и даже изменять мелодию, заменяя, например, фортепиано на оперное соло. Это стало возможным благодаря особому подходу к обучению модели. Исследователи Nvidia отмечают, что создание набора данных для тренировки нейросети, способной связывать звуки и слова, представляет собой сложную задачу. Обычно нейросети учатся понимать текстовые инструкции, но когда речь заходит о звуках, им требуется более точная подсказка. Чтобы решить эту проблему, ученые использовали специальную программу (скрипт на языке Python), которая генерировала большое количество инструкций для создания разнообразных звуковых образов. Эти описания включали как абсолютные характеристики, такие как «синтезировать грустный голос», так и относительные, например, «увеличить грусть в голосе». Большинство общедоступных аудиозаписей, использованных для обучения Fugatto, не содержат подробной информации о заложенных эмоциях или о том, как звучит голос. Поэтому ученые разработали способ автоматически описывать звуки словами. Например, они могли охарактеризовать звук как «веселый», «грустный» или «громкий». Кроме того, использовались специальные инструменты для извлечения числовых характеристик из аудио, которые помогают понять его устройство. После обработки обширной коллекции открытых аудиоданных исследователи сформировали детально аннотированный набор данных, включающий 20 миллионов отдельных аудиообразцов общей продолжительностью более 50 000 часов. На основе этого набора с использованием 32 тензорных ядер Nvidia была обучена модель с 2,5 млрд параметров. ИИ продемонстрировал высокую точность в тестах качества звука. В Fugatto интегрирована система ComposableART, которая позволяет создавать новые звуки, комбинируя различные характеристики, извлеченные из обучающих данных. Эта система генерирует звуки, не встречавшиеся в обучающей выборке, поскольку сочетает несочетаемое. Например, звучание скрипки смешивается со смехом ребенка, а шум дождя — с банджо. Нейросеть рассматривает каждую отдельную аудиохарактеристику как непрерывный спектр, а не как дискретное значение. Так, при создании звукового образа, совмещающего звучание акустической гитары и журчащей воды, конечный результат будет зависеть от того, какая из этих характеристик будет преобладать в «смеси», создаваемой Fugatto. Nvidia считает, что инструмент будет полезен в различных сферах — от создания музыки до разработки новых звуковых эффектов для игр. Разработчики подчеркивают, что модель не является заменой музыкантов, а скорее новым инструментом для аудиохудожников. Правда, пока Fugatto не доступен для публичного тестирования, но представители компании уверяют, что скоро предоставят к нему доступ. Источник: vk.com Комментарии:

Новый ИИ синтезирует звуки, которых люди ранее не слышали???

Комментарии: