Вы никогда не задумывались о том, как работает Алиса - голосовой помощник Yandex? |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-08-03 14:23 Проснувшись сегодня с утра, мне почему-то стало интересно. Может, во сне было что-то похожее. Почитав про это, мне захотелось поделиться с вами, надеюсь будет интересно:) Я не базарюсь на статус великого разъяснителя, поэтому сразу говорю, объяснения могут быть не на сто процентов точными с точки зрения программирования. Но давайте уже разбираться. Всё действие происходит в три этапа и о каждом подробнее: 1. Распознавание голоса с технологией SpeechKit. Несмотря на кучу акцентов в речи, технология позволяет с наивысшей точностью определить, что сказано. Здесь три этапа распознавания: выделение слов, проверка с помощью языковой модели и обработка текста. В конце обработки программа получает определённый математический элемент в семантическом пространстве, о котором рассказано далее. Подробнее тут: https://cloud.yandex.ru/docs/speechkit/stt/ 2. Далее программа думает над ответом по технологии Turing, которая использует семантическое пространство высокой размерности. Что имеется ввиду? Каждая размерность - это определённая тема. Программе надо понять, к какой теме "ближе" то, что сказал человек. Ближе понимается в буквальном смысле: в семантическом пространстве есть математическая функция по подсчёту расстояния - метрика. Программа выберет ту тему, до которой расстояние от сообщения меньше всего. Итак, тема выбрана. Что дальше? Как уже было отмечено, тема, как размерность, это подпространство семантического пространства. И в нём есть точки - высказывания, которые и выбирает программа. Эти высказывания берутся из книг, фильмов, интернет форумов. И в процессе формирования пространства программисты загрузили чуть ли не миллиард таких точек! Кстати, на выбранное высказывание влияют и история диалогов или запросов в интернете, и пол, и возраст, и даже интонация человека! Программа часто использует шутки - машинное обучение зашло уже очень далеко: -Как тебя зовут? -У девочки нет имени. Ох этот солнечный Браавос. 3. Точка высказывания выбрана, и теперь надо сгенерировать по ней человеческую речь. Для ответа человеческим голосом программа использует технологию Text to Speech. Ответы настолько живые, насколько велики возможности нейросети, собравшей голоса миллионов фонем актерских записей. В отличие от речевого генератора в гугл переводчике, эта технология не склеивает элементы реальной речи, а обучает акустическую модель на примерах фонем. Опять же, подробнее можно почитать в разделе "синтез речи" https://cloud.yandex.ru/docs/speechkit/tts/ Вот такая вот сложная техническая часть. Полноценным ИИ это не является, но я верю, что это можно назвать его началом. Источник: cloud.yandex.ru Комментарии: |
|