XLS-R: Самоконтролируемое Обучение межъязыковому представлению речи в масштабе

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В данной работе представлена XLS-R, крупномасштабная модель для обучения межъязыковым репрезентациям речи, основанная на wav2vec 2.0. Авторы обучили модели с 2 миллиардами параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках, что на порядок больше общедоступных данных, чем в самой крупной из известных предшествующих работ. На эталоне перевода речи CoVoST-2 они улучшили предыдущий уровень техники в среднем на 7,4 BLEU по 21 направлению перевода на английский язык. Для распознавания речи XLS-R превосходит наиболее известные предыдущие работы по BABEL, MLS, CommonVoice, а также VoxPopuli, снижая уровень ошибок в среднем на 14-34%

Статья: https://arxiv.org/pdf/2111.09296v1.pdf

GitHub: https://github.com/pytorch/fairseq


Источник: github.com

Комментарии: