RealtimeVoiceChat — живой голосовой чат с ИИ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.

Как работает:

1. Запись речи в браузере

2. Передача аудио по WebSocket на сервер

3. Распознавание речи через `RealtimeSTT` (на базе Whisper)

4. Ответ от LLM (Ollama, OpenAI и др.)

5. Озвучка ответа через `RealtimeTTS` (Coqui XTTSv2, Kokoro и др.)

6. Обратная передача аудио в браузер

7. Поддержка прерываний и динамики через `turndetect.py`

Особенности:

- Задержка ~500 мс

- Поддержка разных LLM и TTS движков

- Быстрый запуск через Docker Compose

- Чистый веб-интерфейс на Vanilla JS + Web Audio API

Стек:

- Backend: Python + FastAPI

- Frontend: JS + WebSockets

- ML: transformers, torchaudio, Ollama, Whisper, TTS

- Контейнеризация: Docker

Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.

Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.

Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat

Демо: https://www.youtube.com/watch?v=-1AD4gakCKw


Источник: www.youtube.com

Комментарии: