Google обучила искусственный интеллект говорить на естественном языке |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2016-09-13 16:55 Специалисты подразделения DeepMind компании Google, занимающегося разработкой и исследованиями, связанными с искусственным интеллектом, разработали новую систему под названием WaveNet, позволяющую системам искусственного интеллекта разговаривать на языке, максимально приближенным к естественному человеческому языку. В рамках этого проекта реализован качественно новый подход к синтезу речи, который работает за счет базы данных анализа звуковых волн человеческого голоса вместо того, чтобы сосредоточиться на интерпретации и имитации естественного языка. Исследователи из различных стран и организаций за последние годы добились достаточно больших успехов в реализации способности компьютеров к восприятию человеческой речи. Это стало возможным благодаря применению нейронных сетей и процессов глубинного машинного изучения. Однако, область синтеза естественной речи значительно отстает от области распознавания речи. Существующие технологии преобразования текст-речь (text-to-speech, TTS), как правило, основаны на двух принципах, компиляционном (concatenative TTS), в котором речь создается путем компиляции ранее записанных фрагментов речи, и параметрическом (parametric TTS), в котором речь воспроизводится устройством-вокодером, на вход которого передается необходимый набор цифровых данных. Последний метод воспроизводит "механическую" речь, которая очень далека от естественного звучания. Система WaveNet работает несколько по-иному, составляющая ее нейронная сеть работает с образами звуковых колебаний, а не только с элементами самого языка. Как и любая нейронная сеть, сеть системы WaveNet прошла процесс предварительного обучения путем анализа массива необработанной аудиоинформации, включая речь, музыку и записи других звуков. Для качественной работы процесса обучения системе требуется аудиосигнал с частотой оцифровки минимум 16 кГц, анализ которого в режиме реального времени является достаточно сложной задачей, требующей большого количества вычислительных ресурсов. В ходе последующих экспериментов специалисты DeepMind "скормили" системе WaveNet записи речи на английском и на китайском языке. После этого в сравнительных целях были созданы образцы искусственной речи на этих языках, синтезированные при помощи трех различных методов, стандартного компиляционного TTS, параметрического TTS и WaveNet. Эксперты, прослушавшие записи синтезированной речи, признали, что речь WaveNet является более близкой к естественной речи, нежели чем все другие образцы. Тем не менее, пока еще очень сложно спутать синтезированную речь с естественной. Тем не менее, система WaveNet, даже в том виде, в котором она существует на сегодняшний день, по мнению представителей DeepMind, открывает множество возможностей для реализации технологий взаимодействия человека с компьютером, для производства музыки, компьютерных игр и ряда других областей. Parametric Concatenative WaveNet Источник: www.dailytechinfo.org Комментарии: |
|