Mini-Omni : Мультимодальная речевая модель |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-09-03 19:53 теория программирования, реализация искусственного интеллекта Mini-Omni (https://huggingface.co/gpt-omni/mini-omni/tree/main) - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре. Функциональные возможности модели: speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS; генерация текста и аудио одновременно; потоковое воспроизведение аудио; пакетное преобразование "speech-to-text" и "speech-to-speech". Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896. Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2. Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей. В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA. Установка: # Create & activate venv Запуск с Streamlit UI: # run streamlit with PyAudio Запуск с Gradio UI: API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py Лицензирование : MIT License. Arxiv (https://arxiv.org/pdf/2408.16725) Demo (https://huggingface.co/spaces/gpt-omni/mini-omni) Модель (https://huggingface.co/gpt-omni/mini-omni/tree/main) Github (https://github.com/gpt-omni/mini-omni) Источник: github.com Комментарии: |
|