ИИ Google научится распознавать невнятную речь

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Google стремится сделать системы распознавания речи доступными для всех, в том числе тех, кто страдает от нарушений дикции или плохо говорит по-английски. Модель обучения дополнили речью больных БАС и сэплами с сильным акцентом.

Люди с боковым амиотрофическим склерозом (БАС) часто имеют проблемы с дикцией. Это осложняет не только общение, но и использование систем распознавания речи, которые, как правило, обучаются на данных здоровых людей. Похожие трудности испытывают люди, которые говорят по-английски с сильным акцентом, отмечает Venture Beat.

Помочь таким людям может сервис Project Euphonia, который разрабатывают специалисты из Google. Чтобы настроить стандартный алгоритм на работу с «проблемными» пользователями, исследователи дополнили наборы данных небольшой выборкой, представляющей людей с БАС и акцентами. Так, выборка для людей с БАС состояла из 36 часов аудиозаписей, полученных от 67 пациентов. Выборку с акцентами составляли 20 часовых записей.

По словам исследователей, этого было достаточно, чтобы преодолеть дефицит данных. Дополненные модели распознавали речь людей с БАС и сильным акцентом на 62% и 35% соответственно.

В дальнейшем в Google намерены расширить тренировочные наборы данных, чтобы довести алгоритм до совершенства.

Недавно Google представила ИИ Translatotron, который переводит речь в реальном времени. Он работает быстрее традиционных систем, поскольку минует этап перевода речи в текст. Впрочем, точность системы пока оставляет желать лучшего.


Источник: hightech.plus

Комментарии: