OmniAudio: Мультимодальная модель для обработки аудио и текста

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


OmniAudio (https://nexa.ai/blogs/omniaudio-2.6b) - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.

OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.

Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.

OmniAudio обучалась в три этапа:

Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription (https://huggingface.co/datasets/parler-tts/mls_eng_10k). Для различения задач транскрибирования и завершения был введен специальный токен <|transcribe|>.

Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель.

На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт».

Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.

В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.

Модель опубликовала в 4 вариантах квантования в формате GGUF:

OmniAudio-2.6B-model-fp16 (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-fp16.gguf) - 5.24 Gb

OmniAudio-2.6B-model-q8_0 (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-q8_0.gguf) - 2.78 Gb

OmniAudio-2.6B-model-q4_K_M (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-q4_K_M.gguf) - 1.71 Gb

OmniAudio-2.6B-model-q4_0 (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-q4_0.gguf) - 2.78 Gb

Разработчик рекомендует локальный инференс в Nexa-SDK (https://github.com/NexaAI/nexa-sdk?tab=readme-ov-file#install-option-1-executable-installer), опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.

В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM.

Лицензирование: Apache 2.0 License.

Страница проекта (https://nexa.ai/blogs/omniaudio-2.6b)

Модель (https://huggingface.co/NexaAIDev/OmniAudio-2.6B)

Demo (https://huggingface.co/spaces/NexaAIDev/omni-audio-demo)

Сообщество в Discord (https://discord.gg/nexa-ai)


Источник: discord.gg

Комментарии: