Вышла ACE-Step 1.5 — open source модель для генерации музыки

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


ACE-Step 1.5 по сути это первая открытая модель, которая реально подбирается к уровню платных сервисов вроде Suno.

По слепым бенчмаркам качество генерации находится между Suno v4.5 и Suno v5.?

Архитектура гибридная: языковая модель (на базе Qwen3) выступает в роли «композитора-планировщика» — она разбирает текстовый запрос и через Chain-of-Thought создаёт полный план трека: BPM, тональность, структуру, текст, метаданные.

После этого за синтез аудио берётся Diffusion Transformer на ~2 млрд параметров.?

Полный трек генерируется менее чем за 2 секунды на A100 и менее чем за 10 секунд на RTX 3090.

При этом минимальные требования — всего 4 ГБ VRAM.??

Для разного железа есть отдельные варианты моделей: от лёгкой версии без LM-модуля (до 6 ГБ VRAM) до полной конфигурации с 4B LM на видеокартах от 24 ГБ.

Модель умеет генерировать треки длительностью от 10 секунд до 10 минут, одновременно обрабатывать до 8 композиций в батче и поддерживает 50+ языков, включая русский.?

Помимо режима text-to-music есть генерация каверов, редактирование фрагментов (repainting), создание аккомпанемента под вокал и управление тональностью.

Отдельно стоит отметить поддержку LoRA — можно дообучить модель на нескольких своих треках и получить персонализированный стиль генерации.

Всё это крутится локально — код на GitHub , веса на Hugging Face — полная свобода, включая коммерческое использование.

Разработчики обучали модель на лицензированных, royalty-free и синтетических данных.


Источник: vk.com

Комментарии: