Вы никогда не задумывались о том, как работает Алиса - голосовой помощник Yandex?

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Проснувшись сегодня с утра, мне почему-то стало интересно. Может, во сне было что-то похожее. Почитав про это, мне захотелось поделиться с вами, надеюсь будет интересно:)

Я не базарюсь на статус великого разъяснителя, поэтому сразу говорю, объяснения могут быть не на сто процентов точными с точки зрения программирования.

Но давайте уже разбираться. Всё действие происходит в три этапа и о каждом подробнее:

1. Распознавание голоса с технологией SpeechKit.

Несмотря на кучу акцентов в речи, технология позволяет с наивысшей точностью определить, что сказано. Здесь три этапа распознавания: выделение слов, проверка с помощью языковой модели и обработка текста. В конце обработки программа получает определённый математический элемент в семантическом пространстве, о котором рассказано далее.

Подробнее тут: https://cloud.yandex.ru/docs/speechkit/stt/

2. Далее программа думает над ответом по технологии Turing, которая использует семантическое пространство высокой размерности. Что имеется ввиду? Каждая размерность - это определённая тема. Программе надо понять, к какой теме "ближе" то, что сказал человек. Ближе понимается в буквальном смысле: в семантическом пространстве есть математическая функция по подсчёту расстояния - метрика. Программа выберет ту тему, до которой расстояние от сообщения меньше всего.

Итак, тема выбрана. Что дальше? Как уже было отмечено, тема, как размерность, это подпространство семантического пространства. И в нём есть точки - высказывания, которые и выбирает программа. Эти высказывания берутся из книг, фильмов, интернет форумов. И в процессе формирования пространства программисты загрузили чуть ли не миллиард таких точек!

Кстати, на выбранное высказывание влияют и история диалогов или запросов в интернете, и пол, и возраст, и даже интонация человека!

Программа часто использует шутки - машинное обучение зашло уже очень далеко:

-Как тебя зовут?

-У девочки нет имени.

Ох этот солнечный Браавос.

3. Точка высказывания выбрана, и теперь надо сгенерировать по ней человеческую речь.

Для ответа человеческим голосом программа использует технологию Text to Speech. Ответы настолько живые, насколько велики возможности нейросети, собравшей голоса миллионов фонем актерских записей.

В отличие от речевого генератора в гугл переводчике, эта технология не склеивает элементы реальной речи, а обучает акустическую модель на примерах фонем.

Опять же, подробнее можно почитать в разделе "синтез речи" https://cloud.yandex.ru/docs/speechkit/tts/

Вот такая вот сложная техническая часть. Полноценным ИИ это не является, но я верю, что это можно назвать его началом.


Источник: cloud.yandex.ru

Комментарии: