ASR и диаризация речи от RevAI

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


RevAI, лидер в области профессиональной транскрипции английской речи выпустила в открытый доступ фреймdорк Reverb (https://github.com/revdotcom/reverb) и набор моделей для построения конвейера speech-to-text.

Reverb включает в себя: модель ASR на базе WeNet (https://github.com/wenet-e2e/wenet) и 2 версии модели диаризации речи. Весь паплайн Reverb можно запускать как на CPU, так и на GPU.

Reverb ASR (https://huggingface.co/Revai/reverb-asr) обучалась на 200 000 часов английской речи, профессионально транскрибированной людьми — это самый большой корпус транскрибированной человеком речи, когда-либо использовавшийся для обучения модели с открытым исходным кодом.

Она позволяет контролировать уровень дословности выходного транскрипта для создания чистого, удобочитаемого текста и справляется с обработкой аудио, требующего транскрипции каждого произнесенного слова, включая запинания и перефразирования.

Reverb ASR использует совместную архитектуру CTC/attention (https://arxiv.org/pdf/2102.01547) и поддерживает несколько режимов декодирования. Указать один или несколько режимов можно в recognize_wav.py. Для каждого режима будут созданы отдельные выходные каталоги. Варианты декодирования:

attention;

ctc_greedy_search;

ctc_prefix_beam_search;

attention_rescoring;

joint_decoding.

В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры).

Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного.

Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм.

Reverb diarization v1 (https://huggingface.co/Revai/reverb-diarization-v1) использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 (https://huggingface.co/Revai/reverb-diarization-v2) использует WavLM вместо функций SincNet в базовой модели pyannote 3.0.

Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой.

Локальное использование предусматривает несколько вариантов: установка с anaconda (https://github.com/revdotcom/reverb?tab=readme-ov-file#installation), использование Docker-образа (https://github.com/revdotcom/reverb?tab=readme-ov-file#docker-image) и масштабное развертывание (https://github.com/revdotcom/reverb-self-hosted).

Для локальной установки понадобится Huggingface API KEY

Набор моделей (https://huggingface.co/Revai)

Demo (https://huggingface.co/spaces/Revai/reverb-asr-demo)

GitHub (https://github.com/revdotcom/reverb)


Источник: github.com

Комментарии: