Автоматическое распознавание речи (70x в реальном времени с помощью large-v2) с временными метками на уровне слов и дикторской речью

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Модель основана на Whisper от OpenAI и обучена на большом наборе данных разнообразного аудио.

- 70-кратная транскрипция в реальном времени с помощью Whisper large-v2

- Требуется <8 ГБ памяти GPU для big-v2 с beam_size=5

- Точные временные метки на уровне слов с помощью выравнивания wav2vec2

- Многоголосый ASR с использованием диаризации диктора

- Препроцессинг VAD уменьшает галлюцинации

• https://github.com/m-bain/whisperX


Источник: github.com

Комментарии: