Конференция Google I/O Duplex

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


На конференции Google I/O была представлена технология Duplex, которая наделит голосового ассистента невиданными прежде способностями. Диковину критически обсудили Ольга Федоровна Кривнова (ОФК) и участники ее семинара «Речевые технологии».

ОФК: И как вам?

(ЛД): На презентации выглядит эффектно: ассистент звонит в парикмахерскую, договаривается о времени. Но подробностей маловато.

(НГ): На презентации хорошо показать два корректных примера, но это все-таки презентация.

(АТ): Они показывают лучший результат того, чего они добились. Даже если это единичный случай — такая ровная, гладкая беседа,— это уже говорит о том, что технологии сделали большой скачок. Вот Siri сейчас очень коряво говорит, ставит неправильно ударения, словоизменение путает, если имени нет в словаре.

НГ: А вот, например, вдруг система ошиблась? Распознала, что все получилось, а на самом деле есть ошибка — с датой, скажем?

(АЯ): Действительно, а обратная связь там есть?

ОФК: Действительно, обратной связи не показали. Но интереснее другое: что будет, если диалог пойдет не в ту сторону, в которую помощник задает. Насколько нужна лимитированная жесткая модель диалога, чтобы все работало, — вот основной вопрос. В книге “Автоматическая обработка разговорной русской речи”, которую я давала вам как возможное пособие, есть о том, как в Питере разрабатывают информационно-диалоговую систему общения с заказом в аэропортах, информационных службах и т.д. Там очень большие трудности возникают, например, даже если вокруг шум. А если человек употребил слово, которое далеко от словаря данной тематики, то уже полный отбой.

АЯ: В помощник можно встроить такую функцию, что если у него слишком высокий уровень шума, он скажет: “Я вас плохо слышу.”

ОФК: Конечно, можно. Эти стандартные ситуации прорабатываются. Но нельзя предсказать, сколько таких стандартных ситуаций. Года три назад к нам пришли заказчики из какого-то банка. А у них была задача, чтобы по голосу определили клиента и выдавали личную информацию по счету. Это вообще-то запрещено делать. Но заказ был такой, чтобы голосовой помощник говорил только такие слова и только такие цифры и только в таком порядке.

АТ: А вот голосовой помощник Duplex не говорил: “Я хочу забронировать столик на 7 мая”. Он говорил “Я хотел бы забронировать столик на… ммм… 7 мая”. То есть звучал очень по-человечески, естественно. Как они добились этого?

НГ: Про это у меня было в реферате! Нефонемные элементы тоже собираются в корпусе и распознаются. Была создана система, где выделялись специальные «фонемы» — обозначения подобных неразложимых нефонемных элементов, таких как “мхм”, “у” и прочих.

ОФК: Строятся такие же скрытые марковские модели, только они бывают с хезитацией. На самом деле это давно придумали. В Италии есть компания, которая одна из первых начала заниматься селективным синтезированием речи, там было сначала два первых диктора, сейчас по разным языкам их стало очень много. Для русского там были Ольга и Дмитрий. Так эта Ольга хихикала по ходу дела вполне естественно.

АТ: А куда дальше может развиваться технология этого типа?

ОФК: Например, это может быть использование в социальных программах: жесты плюс ручные движения плюс телодвижения плюс фейсовая информация, так называемое включение мультимодальности. Это и многоязычность. Если человек с акцентом хочет заказать себе что-то с этим голосовым помощником, как будет реагировать система распознавания речи? Надо вводить в базу соответствующие модели. Или надо распознавать язык, который дал такой акцент, и тогда использовать распознавалку с этого языка. Много разных путей есть. Акцентом сейчас очень много занимаются и в распознавании речи особенно в многонациональных странах типа США.

АТ: А построить голосовой помощник для русского языка, который дал бы такие же хорошие результаты, как на английском, — сколько потребуется для этого времени?

ОФК: Вспомните чат-бот Женя Густман, который общался на английском языке и на письменном тексте. При адаптации его письменных текстов на русский язык было видно, что это несовершенная вещь. Почему? Потому что пока нет хороших моделей диалога.

А продолжение вы можете узнать на курсах "Автоматическая обработка звучащей речи" в бакалавриате и "Речевые технологии" в магистратуре!

Комментарии: