Mini-Omni : Мультимодальная речевая модель

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Mini-Omni (https://huggingface.co/gpt-omni/mini-omni/tree/main) - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.

Функциональные возможности модели:

speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;

генерация текста и аудио одновременно;

потоковое воспроизведение аудио;

пакетное преобразование "speech-to-text" и "speech-to-speech".

Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.

Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.

Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.

В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.

Установка:

# Create & activate venv  

conda create -n omni python=3.10

conda activate omni

# Clone the Repository

git clone https://github.com/gpt-omni/mini-omni.git

cd mini-omni

# Install required packages

pip install -r requirements.txt

# start server

python3 server.py —ip '0.0.0.0' —port 60808

Запуск с Streamlit UI:

# run streamlit with PyAudio  

pip install PyAudio==0.2.14

API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

Запуск с Gradio UI:

API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

Лицензирование : MIT License.

Arxiv (https://arxiv.org/pdf/2408.16725)

Demo (https://huggingface.co/spaces/gpt-omni/mini-omni)

Модель (https://huggingface.co/gpt-omni/mini-omni/tree/main)

Github (https://github.com/gpt-omni/mini-omni)


Источник: github.com

Комментарии: