ASR и диаризация речи от RevAI |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-10-04 15:11 RevAI, лидер в области профессиональной транскрипции английской речи выпустила в открытый доступ фреймdорк Reverb (https://github.com/revdotcom/reverb) и набор моделей для построения конвейера speech-to-text. Reverb включает в себя: модель ASR на базе WeNet (https://github.com/wenet-e2e/wenet) и 2 версии модели диаризации речи. Весь паплайн Reverb можно запускать как на CPU, так и на GPU. Reverb ASR (https://huggingface.co/Revai/reverb-asr) обучалась на 200 000 часов английской речи, профессионально транскрибированной людьми — это самый большой корпус транскрибированной человеком речи, когда-либо использовавшийся для обучения модели с открытым исходным кодом. Она позволяет контролировать уровень дословности выходного транскрипта для создания чистого, удобочитаемого текста и справляется с обработкой аудио, требующего транскрипции каждого произнесенного слова, включая запинания и перефразирования. Reverb ASR использует совместную архитектуру CTC/attention (https://arxiv.org/pdf/2102.01547) и поддерживает несколько режимов декодирования. Указать один или несколько режимов можно в attention; ctc_greedy_search; ctc_prefix_beam_search; attention_rescoring; joint_decoding. В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры). Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного. Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм. Reverb diarization v1 (https://huggingface.co/Revai/reverb-diarization-v1) использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 (https://huggingface.co/Revai/reverb-diarization-v2) использует WavLM вместо функций SincNet в базовой модели pyannote 3.0. Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой. Локальное использование предусматривает несколько вариантов: установка с anaconda (https://github.com/revdotcom/reverb?tab=readme-ov-file#installation), использование Docker-образа (https://github.com/revdotcom/reverb?tab=readme-ov-file#docker-image) и масштабное развертывание (https://github.com/revdotcom/reverb-self-hosted). Для локальной установки понадобится Huggingface API KEY Набор моделей (https://huggingface.co/Revai) Demo (https://huggingface.co/spaces/Revai/reverb-asr-demo) GitHub (https://github.com/revdotcom/reverb) Источник: github.com Комментарии: |
|