OpenAI обучили и опенсорснули трансформер Whisper для распознавания речи

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


TL;DR »> OpenAI обучили и выложили нейронную сеть Whisper, которая приближается к человеческому уровню распознавания английской речи.

Whisper это трансформер, обученный на 680,000 часах мультиязычной речи, собранной из интеренета. Такой огромный датасет позволил получить модель, устойчивую к разным акцентам, фоновому шуму, и понимающую технический язык. Кроме того, модель может не просто траскрибировать иностранную речь, а сразу переводить ее на английский язык!

Архитектура Whisper

1) Аудио семплы разбиваются на чанки по 30 секунд, которые преобразуются log-Mel спектрограмму

2) Затем спектрограмма обрабатывается двумя блоками 1D сверток c GELU активациями, к которым добавляются тригонометрические тайм-эмбеддинги

3) Затем все это добро подается в энкодер-декодер трансформер. Декодер же в свою очередь начинает транскрипцию после пары служебных токенов, отвечающих за язык семпла, время, и выбор задачи (перевод на английский или оригинальная траскрипция).

https://openai.com/blog/whisper/

https://cdn.openai.com/papers/whisper.pdf

https://github.com/openai/whisper


Источник: openai.com

Комментарии: