RealtimeVoiceChat — живой голосовой чат с ИИ |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-05-15 14:50 RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке. Как работает: 1. Запись речи в браузере 2. Передача аудио по WebSocket на сервер 3. Распознавание речи через `RealtimeSTT` (на базе Whisper) 4. Ответ от LLM (Ollama, OpenAI и др.) 5. Озвучка ответа через `RealtimeTTS` (Coqui XTTSv2, Kokoro и др.) 6. Обратная передача аудио в браузер 7. Поддержка прерываний и динамики через `turndetect.py` Особенности: - Задержка ~500 мс - Поддержка разных LLM и TTS движков - Быстрый запуск через Docker Compose - Чистый веб-интерфейс на Vanilla JS + Web Audio API Стек: - Backend: Python + FastAPI - Frontend: JS + WebSockets - ML: transformers, torchaudio, Ollama, Whisper, TTS - Контейнеризация: Docker Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker. Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов. Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat Демо: https://www.youtube.com/watch?v=-1AD4gakCKw Источник: www.youtube.com Комментарии: |
|