Автоматическое распознавание речи (70x в реальном времени с помощью large-v2) с временными метками на уровне слов и дикторской речью |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-09-07 11:37 Модель основана на Whisper от OpenAI и обучена на большом наборе данных разнообразного аудио. - 70-кратная транскрипция в реальном времени с помощью Whisper large-v2 - Требуется <8 ГБ памяти GPU для big-v2 с beam_size=5 - Точные временные метки на уровне слов с помощью выравнивания wav2vec2 - Многоголосый ASR с использованием диаризации диктора - Препроцессинг VAD уменьшает галлюцинации • https://github.com/m-bain/whisperX Источник: github.com Комментарии: |
|