Искусственный интеллект научился «понимать» речь не хуже человека |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2016-11-04 18:45 Как устроены системы распознавания речи, кто победил в гонке Microsoft и IBM и при чем тут питерские ученые, рассказывают наши друзья, новый портал о науке, Indicator.Ru. «Мы достигли уровня человека» В конце октября компания Microsoft объявила, что ей удалось усовершенствовать систему распознавания речи и сократить количество ошибок, которые искусственный интеллект делает при «прослушивании» спонтанной речи до рекордных 5,9%. До этого на конференции InterSpeech 2016 компания заявила, что обогнала своего главного конкурента - IBM, у которого показатели снизились до 6,6% ошибок. «Мы достигли уровня человека. Это историческое достижение», - сообщил специалист Microsoft по работе с искусственным интеллектом (Microsoft Artificial Intelligence and Research) Сюэдун Хуан (Xuedong Huang). По словам разработчиков, схожие результаты показывают профессиональные стенографисты. «Стать как человек» компания смогла благодаря использованию глубоких нейронных сетей - моделированию биологических и когнитивных процессов в головном мозге человека. Именно нейронные сети считаются ключевой технологией в разработках не только систем распознавания устной речи, но и письменной, а также распознавания фотографий. Исследователи объясняют высокое качество распознавания «системным использованием архитектуры LSTM построения рекуррентных нейронных сетей для акустического и языкового моделирования, сверточных нейронных сетей в акустической модели, а также широкой комбинации комплементарных моделей». Важно отметить, что речь идет именно о спонтанной речи. С середины 90-х годов научное сообщество бьется над распознаванием этого типа речи. Системы, которые распознают команды и диктовку, существовали и до этого. Что же касается ситуаций, в которых человек говорит невнятно, быстро, отрывочно или же вообще не хочет, чтобы его поняли, относительно них проблема до сих пор оставалась острой. «Начиная с 43% - это огромная ошибка, больше половины слов неправильно - они (Microsoft, - прим. Indicator.Ru) немного снизили количество ошибок. Но сказать, что задача была решена, нельзя, - рассказал Indicator.Ru руководитель отдела распознавания речи -Центра речевых технологий- (ЦРТ) Александр Затворницкий. - Началось нечто, напоминающее гонку. Кто впервые дойдет до уровня понимания человека. Кто первым закроет эту задачу, решит ее настолько хорошо, насколько ее может решить человек». По словам Затворницкого, победить в «гонке распознавания» компании Microsoft отчасти помог метод, предложенный «Центром распознавания речи». Помог на полпроцента. «Метод, которыми они взяли последний барьер - 0,3% из 0,4% ошибок, - это метод, который предложили мы в прошлом году», - рассказал Затворницкий. «Коллеги из Питера (ЦРТ, - прим. Indicator.Ru) использовали метод построения нейронных сетей для решений одной из задач и применили его несколько иначе, о чем и написали в своей научной работе. Возможно, эта идея понравилась специалистам из Microsoft Research, они ее творчески переосмыслили и пошли дальше», - рассказала корреспонденту Indicator.Ru представитель Microsoft Александра Паришева. В компании при этом подчеркнули, что в российских СМИ роль питерских ученых в достижениях американской компании была несколько преувеличена и к разработке самой технологии распознавания речи предложенный алгоритм отношения не имеет. «Конечно, специалисты из ЦРТ добились значительных успехов в области распознавания речи. В своей научной работе наши коллеги из научно-исследовательского подразделения Microsoft Research сослались на работу питерских ученых, там 68 ссылок и одна из них - на работу российских ученых», - рассказала представитель Microsoft. Примените это немедленно! «У ученых нет ни планов, ни четких задач создать продукт, это все уже следующая стадия. Они что-то изобретают ради изобретения. Где это будет применять, думают уже другие люди», - рассказала о работе в Microsoft Research Паришева. По словам специалистов, технология распознавания речи может применяться в различных областях, «призванных упростить нашу жизнь, помочь людям с ограниченными возможностями и сложностями в обучении, а также наладить коммуникацию между представителями разных стран и культур». В повседневной жизни эти технологии используются для управления системами в автомобиле, что позволяет не отвлекаться и повышает безопасность вождения. С помощью голоса можно совершать звонки, включать радио, прокладывать путь с помощью GPS, повышать температуру в салоне. Существуют также умные дома и умные офисы, где благодаря речевым командам можно управлять освещением, климатом и безопасностью. Персональные устройства сегодня тоже оснащены речевыми инструментами и виртуальными ассистентами, которые помогают не только управлять смартфоном и задавать поисковые запросы, но синхронно переводить речь собеседника в реальном времени в Skype. Также система может применяться в здравоохранении. В Microsoft подчеркнули, что разработка будет полезна в различных сферах, начиная от автоматической транскрипции врачебных документов для ускорения документооборота в клиниках, до помощи больным с различными дисфункциями. «К примеру, были проведены исследования, в которых пациенты с артериовенозной мальформацией, страдающие нарушениями памяти на фоне проведенной операцией на мозге, показывали улучшение после упражнений с распознаванием и переводом речи в письменный текст. Также людям с ограниченными возможностями помогает коммуницировать с окружающим миром», - рассказали в компании. «Это система для распознавания спонтанных телефонных диалогов - ситуаций, когда человек заинтересован в том, чтобы микрофон был как можно ближе ко рту. Когда вы звоните в контакт-центр и система спрашивает, что вы хотите. Речевая аналитика в контакт-центрах - важная область применения. Доволен ли клиент работой оператора, все ли оператор сказал правильно и так далее», - рассказал Indicator.Ru Затворницкий. На сегодняшний день система разработана для распознавания только английского языка, поэтому в случае с другими языками, количество ошибок при анализе речи зависит от каждого конкретного случая. «Возможно, для работы с другим языком потребуется лишь обучить нейронную сеть на корпусе этого языка. А может придется дорабатывать систему для учета специфики языка. Для некоторых языков адаптация системы неизбежна, так как потребует определения дополнительных свойств, например, тональности в случае китайского языка», - рассказали представители компании Microsoft. В России системами распознавания речи занимается, в частности, компания «Яндекс». «Технология SpeechKit устроена таким образом, что, чем больше данных для обучения используется, тем лучше качество. Распознавание речи пользуется популярностью среди аудитории сервисов -Яндекса- и обрабатывает миллионы голосовых запросов ежедневно. Таким образом, нам удалось получить качество распознавания русской речи близкое к человеческому, то есть на уровне 95%», - заявили в компании. Источник: neuronovosti.ru Комментарии: |
|