Обзор российских голосовых помощников: «Дуся», «Ассистент на русском», Speaktoit и «Собеседник HD»

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Обозреватель vc.ru изучила рынок интеллектуальных ассистентов, описала несколько российских сервисов и опросила экспертов о перспективах речевых технологий.

Мировой рынок интеллектуальных ассистентов с 2012 года по 2014 год вырос с $352 млн до $572,2 млн. К 2020 году ожидается рост рынка до $3,07 млрд, что составит 31% по сравнению с ростом в 2013 году.

Пока одни компании концентрируются на создании виртуальных помощников на веб-страницах, другие уделяют внимание мобильным. На мировом рынке пока преобладают крупные компании - создатели виртуальных ассистентов. На их долю приходится 80% всей выручки отрасли. Прогнозируемые области для увеличения роста в этой сфере - транспортные, коммунальные услуги, телекоммуникационный сектор.

Согласно отчету Transparency Market Research, самой большой в мире оказалась доля североамериканского рынка - 39%. С 2014 по 2022 год, по прогнозам, наиболее быстрорастущим станет азиатско-тихоокеанский регион - 33,4%.

По словам Дениса Филиппова, руководителя центра речевых технологий «Яндекса», российский рынок только начинает развитие, здесь еще не накоплено достаточно информации и статистики для оценки прибыльности, но потенциал у темы большой. При оптимистичном сценарии развития в ближайшие 3-5 лет рынок речевых технологий России может вырасти до $100 млн в год. В речевых технологиях и в смысловом анализе текстов ключевая роль останется за технологиями сбора и обработки больших данных и технологиями построения и обучения глубоких нейронных сетей.

С представителем «Яндекса» согласен директор по управлению пакетом ФРИИ Сергей Негодяев. Он считает, что прибыльность данной отрасли можно определить, только если решить, что конкретно называть «рынком речевых технологий». Рынок программного обеспечения для колл-центров в России составляет порядка 2 млрд рублей в год, на техническую поддержку пользователей по телефону крупные компании тратят десятки миллиардов рублей в год - так что оценивать можно очень по-разному.

Огромное количество денег получают провайдеры услуг телефонии для крупных заказчиков. Банки, телекоммуникационные и страховые компании имеют сотни миллионов пользователей, а это миллионы минут ежедневно. Любая компания, которая позволяет автоматизировать работу колл-центров или крупных заказчиков, имеет серьезные возможности для роста, говорит Негодяев.

Создатель приложения « Собеседник HD» Андрей Ермолаев считает, что интеллектуальные способности помощников будут усложняться. Возможно, однажды наступит момент, когда пользователи в разговоре не смогут отличить чат-бота от человека. С другой стороны, получат развитие специализированные приложения для покупки билетов и товаров, а также для получения справочной информации.

«Дуся» - это голосовой ассистент для Android, предназначенный для голосового управления смартфоном. У него нет интерфейса - только маленькая иконка в левом верхнем углу экрана. Приложение работает постоянно в фоновом режиме и активируется голосом, взмахом руки, прикладыванием смартфона к уху или встряхиванием и другими способами.

Множество возможностей для персонализации позволяет настроить ассистент под себя. «Дуся» обладает внушительным словарным запасом и еще большим набором возможных скриптов для установки. Например, скрипт для вызова такси, для игры с приложением в города, для просмотра онлайн-ТВ и поиска музыки. Общаться на отвлеченные темы «Дуся» не способна - по крайней мере до установки соответствующего чат-бот скрипта.

Стоимость - 90 рублей после недельного пробного периода. Есть бесплатная версия для разработчиков.

Создатели «Ассистента на русском» вышли за рамки мобильного виртуального помощника и создали API, позволяющее добавить голосовое управление к любому Android-приложению. Разработчикам доступна открытая версия примеров API на GitHub.

Голосовой помощник для Android (с версии 2.3.x), понимает запросы на естественном русском языке, распознает смысл речи, устанавливает и поддерживает диалоговый контекст с пользователем. Для корректной работы приложение запрашивает установленный голосовой поиск Google.

Бесплатная полная версия продукта доступна семь дней, после этого нужно заплатить 500 рублей. В платной версии доступны голосовой ответ помощника и автоматическая активизация микрофона. Последние обновления продукта датируются январем 2014 года, и пользователи утверждают, что разработчики давно забросили «Ассистент». Получить официальный коментариий компании не удалось.

Этот голосовой помощник основали выходцы из России Павел Сиротин, Артем Гончарук и Илья Гельфенбейн. После выхода он попал в топ-10 лучших приложений для Android по версии The New York Times.

Ассистент доступен на Windows Phone, Android и iOS, помощника можно обучать новым фразам.


Как сообщает The Wall Street Journal, стартап привлек $2,6 млн инвестиций в ходе раунда B, который возглавил фонд Motorola Solutions Venture Capital в июле 2014 года. 

В будущем, по словам Ильи Гельфенбейна, виртуальные гаджеты будут очень востребованы: «Ты даешь задание, машина его выполняет. Когда-то это время должно наступить». Конечная цель разработчиков - «создать приложение, без которого невозможно жить», но потребуется на это около 10 лет. Гельфенбейн отметил, что это перспективная отрасль развития, поскольку носимых гаджетов становится больше, чем компьютеров.

В ближайших планах Speaktoit - увеличить количество поддерживаемых языков и расширить деятельность. Компания работает с крупными автопроизводителями и к 2018 году готовит к выпуску новый продукт. Главным рынком Гельфенбейн называет США. Возможно, поэтому, несмотря на поддержку девяти языков, русская локализация уступает в распознавании речи другим российским помощникам.

В остальном приложение мало отличается от конкурентов: поддерживается набор номеров из списка контактов и набор сообщений, поиск в интернете, установка будильников и напоминаний.

Доступны платная ($1) и бесплатная версии. Приложение скачали около 12 миллионов раз, а число платных пользователей превысило 150-тысяч.

Этот голосовой помощник называют российским аналогом Siri: его создала компания-разработчик iOS-приложений iDeveloper, не дождавшись русской локализации для iOS. Приложение практически не уступает западному образцу, а в чем-то даже его превосходит. Например, словарный запас собеседника пополняется пользовательскими вопросами, если они не бессмысленные или нецензурные.

Остальные функции «Собеседника HD» те же, что и у приложений-аналогов: установка будильника и напоминаний, поиск в интернете, набор сообщений и вызов контактов из адресной книги.


Одна из функций ассистента - игра в города

Разработчик «Собеседника HD» Андрей Ермолаев в интервью ToWave рассказал, что приложение не раз отклоняли в App Store, ссылаясь на повторение функциональности Siri. Спустя два месяца исправленное согласно рекомендациям приложение поступило в App Store и почти сразу попало в российский топ-5.

Доступны платная ($0,99) и бесплатная версии помощника. Количество скачиваний - 70-тысяч и 400 тысяч соответственно.

Стартовый капитал нашей команды был порядка $10-тысяч, точных данных по доходам дать не можем, но проект окупился.

Одна из главных сложностей, с которыми мы столкнулись - переговоры с Apple о пропуске приложения в App Store. Много времени мы потратили на оптимизацию приложения, ведь распознавание речи происходило на сервере, а затем распознанная фраза отправлялась на другой сервер для подготовки ответа.

Для распознавания речи мы пользовались сервисами от iSpeech, Nuance и другими. В будущем, полагаю, станет возможно качественное преобразование речи в текст без отсылки на сервер. Возможно, лет через пять помощники достигнут такого уровня развития, что мы все станем ими пользоваться.

Для высокого качества речевых технологий главное - это сбор данных для обучения. Пожалуй, это и есть основная сложность при разработке данных продуктов.

Мы только начинаем развивать наши коммерческие продукты линейки Yandex SpeechKit для этого рынка, поэтому оценивать нашу долю рынка еще преждевременно, но планы у нас большие. В целом у отрасли хорошие перспективы: мы каждый день - дома, в городе, в машине, в офисе - сталкиваемся с огромным количеством устройств, все они имеют разные интерфейсы (кнопки, экраны и так далее) и широкую функциональность.

При таком многообразии возможностей производители устройств стремятся сделать взаимодействие со своими устройствами как можно проще и привычнее, и голосовые диалоговые интерфейсы идеально решают эту задачу. Задачи распознавания и синтеза для таких интерфейсов важны, но их недостаточно. Новый уровень технологий понимания и решения задачи пользователя в диалоговом режиме позволит применять голосовые интерфейсы в различных устройствах - от холодильника до автомобиля.

Многие наши продукты (например, мобильный поиск «Яндекса», «Навигатор») являются голосовыми ассистентами: они помогают пользователям решать их ежедневные задачи в том числе с помощью голосовых интерфейсов. Когда мы говорим: «Поехали домой», «Навигатор» строит маршрут до дома, и это происходит каждый день.

На российском рынке есть несколько крупных отечественных игроков, самый известный из них - компания «Центр речевых технологий». Ей приходится конкурировать с такими крупными игроками, как Nuance (Siri в iPhone работает на ее технологиях), Google и Microsoft, выставившей в открытую продажу свои когнитивные сервисы. На большое количество решений у небольших компаний, решающих частные задачи, есть очень ограниченный круг заказчиков.

В последнее время огромную популярность приобрели решения, построенные на различных типах нейронных сетей. Это связано с тем, что стоимость вычислительных ресурсов серьезно снизилась, и стало возможно и экономически целесообразно создавать системы из тысяч нейронов.

Обучение и расчеты подобных систем удобно проводить на высокопроизводительных GPU типа решений от nVidia. Правильно построенные и обученные сети показывают результаты на 20-30% лучше, чем системы, построенные на классических алгоритмах. Плюс ко всему, нейросетевые системы значительно дешевле в разработке и обслуживании, чем системы, где модели распознавания описывают аналитики и разработчики. Но главное, что нужно для создания такой системы, - это доступ к серьезной обучающей выборке данных.

Во ФРИИ мы видели несколько примеров, когда компании, у которых был доступ к серьезной обучающей выборке для сетей, достаточно быстро строили решения, на голову превосходящие аналоги от крупных российских и международных вендоров.

Обработка голосовых данных относится к задачам, которые сейчас решают на основе технологий машинного обучения. Для серьезной работы в этом направлении во ФРИИ была сформирована «Лаборатория больших данных». Ее возглавил Анатолий Орлов, который много лет был одним из ведущих математиков и алгоритмистов «Яндекса» и отвечал за многие задачи при создании системы поиска.

Молодые команды с доступом к обучающим выборкам - это сегодня одна из самых горячих инвестиционных тем, и мы внимательно следим за успехами этих команд в России и за рубежом. Уже сейчас мы готовим ряд предложений об инвестировании в эти компании и надеемся, что в ближайшее время наш портфель пополнится новыми выскотехнологичными решениями.


Источник: vc.ru

Комментарии: