Модель Ming-UniAudio — это универсальный фреймворк, сочетающий понимание речи, генерацию и редактирование

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.

- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.

- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.

- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.

- Лицензия: Apache-2.0.

GitHub: https://github.com/inclusionAI/Ming-UniAudio

Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio

Model:

base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit

Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark

blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/


Источник: xqacmer.github.io

Комментарии: