OmniAudio: Мультимодальная модель для обработки аудио и текста |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-12-30 11:52 OmniAudio (https://nexa.ai/blogs/omniaudio-2.6b) - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов. OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса. Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею. OmniAudio обучалась в три этапа: Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription (https://huggingface.co/datasets/parler-tts/mls_eng_10k). Для различения задач транскрибирования и завершения был введен специальный токен <|transcribe|>. Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель. На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт». Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду. В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF. Модель опубликовала в 4 вариантах квантования в формате GGUF: OmniAudio-2.6B-model-fp16 (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-fp16.gguf) - 5.24 Gb OmniAudio-2.6B-model-q8_0 (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-q8_0.gguf) - 2.78 Gb OmniAudio-2.6B-model-q4_K_M (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-q4_K_M.gguf) - 1.71 Gb OmniAudio-2.6B-model-q4_0 (https://huggingface.co/NexaAIDev/OmniAudio-2.6B/blob/main/OmniAudio-2.6B-model-q4_0.gguf) - 2.78 Gb Разработчик рекомендует локальный инференс в Nexa-SDK (https://github.com/NexaAI/nexa-sdk?tab=readme-ov-file#install-option-1-executable-installer), опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей. В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии Лицензирование: Apache 2.0 License. Страница проекта (https://nexa.ai/blogs/omniaudio-2.6b) Модель (https://huggingface.co/NexaAIDev/OmniAudio-2.6B) Demo (https://huggingface.co/spaces/NexaAIDev/omni-audio-demo) Сообщество в Discord (https://discord.gg/nexa-ai) Источник: discord.gg Комментарии: |
|