Говорить как человек, говорить лучше человека!

2016-10-02 18:15

ИИ проекты, новости нейронных сетей, реализация нейронной сети

Вы не задумывались, для чего Google искусственный интеллект? Для чего все эти победы в го, эксперименты с синтетической музыкой и прозой? Уж конечно не ради имиджа. История беспощадна к бескорыстным изобретателям, печальной памяти Xerox PARC - тому пример. И Google, то есть, простите Alphabet, на эти грабли наступать точно не собирается. У каждого её проекта обязательно есть приземлённая, прагматическая цель. Например, нынче летом она сообщила, что, натравив свою, тренированную на аркадах нейросеть, на управление дата-центрами, сэкономила миллионы долларов на электричестве - и в общем «отбила» покупку ИИ-стартапа DeepMind, за который пару лет назад отдала $600 млн. Такая вот она, высокая наука крупного бизнеса.

К счастью, даже прикрыв главный испытательный полигон, Google Labs, гугловцы не стали принуждать своих учёных выпускать, образно выражаясь, сковородки. И время от времени нам, заинтересованным наблюдателям, перепадают приятные находки, коммерческая ценность которых не очевидна. Весной это была победа над человеком в го (спасибо DeepMind). А на днях всё та же команда сообщила, что научила машину говорить человеческим голосом почти так же хорошо, как сам человек.

150916-1

Тут, впрочем, стоит сразу послушать. Потому что на мой личный вкус, новый синтезатор говорит не просто на голову лучше всех механических предыдущих, а так же хорошо, как человек: речь его не просто информативна - она приятна для уха! И это многое обещает в перспективе.

Как этого добились? Решив задачу нестандартно. До сих пор голос синтезировался двумя способами. Один: «наговорить на ленту» множество фраз, а потом заставить машину порезать их на слова и фонемы и научить плавно сливать. Так, в частности, «говорят» Siri и Android. Другой способ - параметрический: нужно написать программу (вокодер), синтезирующую фонемы, и заставить её «проговаривать» текст. Оба способа сравнительно легко программируются и требуют сравнительно небольших вычислительных ресурсов, почему и используются широко. К сожалению, качество такого синтеза оставляет желать лучшего: голос при всём желании не спутаешь с человеческим, ибо звучит он отрывисто, без выраженной интонации, всегда одинаково, ну и вообще неестественно.

А гугловцы, повторюсь, пошли другим путём. Они заставили нейросеть синтезировать голос буквально по «пикселям», звуковым квантам, с частотой 16 кГц. То есть никаких фонем, а тем более слов, тут нет: машина буквально рисует сырую звуковую волну, как могла бы рисовать синусоиду, например. А чтобы она знала, что нужно рисовать, её предварительно натренировали на фонотеке, содержавшей записи сотни человек, говоривших несколько суток.

В результате WaveNet - так назвали синтезатор или модель, «придуманную» мозгом DeepMind для синтеза голоса - способна не просто говорить, а копировать интонации и особенности речи любого из своих тренеров - такие, в частности, как причмокивание губами или перевод дыхания. Её можно заставить проговаривать текст с разным выражением, голосом мужским или женским, на разных языках, и даже изобрести собственный уникальный голос.

150916-2

Качество имитации настолько высоко, что средняя оценка, выставленная за натуральность группой слушателей, лишь немного, в десятых долях, уступает оценке голоса живого человека (по 5-балльной шкале, при том, что даже человек 5 баллов не набирает). И последствия рисуются весьма нетривиальные и далеко идущие.

Коммерциализация такой машины - дело, конечно, не одного дня. Пока ещё, чтобы зачитать текст с листа, WaveNet требует всей вычислительной мощи гугловского ИИ. Иначе говоря, на телефоне её не запустишь. Со временем, впрочем, модель наверняка упростят, подогнав под запросы широкого рынка. Но интересней не гадать, когда это случится, а попробовать очертить перспективу, отталкиваясь от самого того факта, что машина научилась говорить неотличимо от человека. Чем и кому это угрожает, чем и кому способно помочь? Кроме тех очевидных миллионов несчастных, которые, в результате травм или болезней, лишены собственного голоса и пока вынуждены говорить голосами синтетическими и одинаковыми - и пожилой дядька Стивен Хокинг, и маленькая девочка.

Так вот на прицеле прежде всего актёры. Спрос на «правильные» голоса в масс-медиа велик. Голос подчёркивает особенности персонажа или продукта. Но теперь, вместо того, чтобы искать наиболее приближенный к желанному идеалу вариант среди людей, режиссёры смогут просто запросить голосовую модель, точно удовлетворяющую нескольким критериям, у Google. И WaveNet прочитает текст с нужной интонацией, ритмом, громкостью, правильно с первого раза и максимально приятно для слушателя.

150916-4

Отсюда прямо следует вариант появления неестественных голосов, которые будут звучать приятнее натуральных. Красота - парадоксальная штука: мы часто считаем красивым то, чего природа создать не смогла. Так почему и голосу не быть таким же? А значит и реклама, и продающие телефонные звонки, и даже, вероятно, деловые переговоры (через Сеть или с переводчиком), будут озвучиваться не человеком, а машиной. Уверен, кто-нибудь из фантастов эту тему уже прорабатывал. Подскажете?

Далее, новую модель, конечно, возьмут на вооружение мошенники всех сортов - от чистых уголовников до заседающих в штабах политических кандидатов. Представьте себе, как резко способна поменять расстановку сил в предвыборной гонке «случайно утекшая запись» телефонного разговора двух политиков, обсуждающих что-нибудь противозаконное. Для обывателя синтезированные голоса сквозь наложенные помехи будут звучать неотличимо от оригиналов. Но даже и эксперты - смогут ли определить, что запись сфабрикована, что голоса ненастоящие? Найдутся ли в речи, синтезированной «попиксельно», хоть какие-нибудь зацепки, свидетельствующие о подделке? Если интересно, можете попробовать свои силы прямо сейчас - Google опубликовала достаточное количество синтетических фонограмм.

Наконец, что интересно и неожиданно, WaveNet можно заставить работать «задом наперёд» и не только для голоса. Она, например, способна учиться, а потом генерировать весьма интересные (по крайней мере на взгляд непрофессионала: было бы интересно услышать мнение людей с соответствующим образованием) музыкальные пассажи. А «развернув» её, как утверждают авторы, получим беспрецедентно качественную систему распознавания речи. То и другое пока лишь забавные «побочные эффекты». Но какова же мощь основной технологии, если даже её незапланированные свойства таят угрозу для людей творческих профессий!

.S. В статье использованы графические работы DeepMind, Ashley Rose.

На данный момент по музыке там полный абзац. Т.е. даже несмотря на имитацию рояля, собственно набор звуков выглядит просто бессмысленно. Ну, т.е. вот как в речи: мы произносим слова и фразы, доносим ими какую-то мысль. Можно, конечно, сгенерировать просто шум, похожий на речь, но если в нём не будет смысла, передачи информации, то речью это никто и не назовёт. То же самое и здесь: шум напоминает игру на рояле, но, т.к. нет ни музыкальной фразы, ни мелодии, ни авторского замысла и интонационной логики - это слушается, как просто шум.

Ну вот, экспертная оценка :-)
Хотя я так понял, они просто позволили нейросети «бредить» музыкой, то есть никак направление не задавали - отсюда и бессмысленность.

Возможно и так. Я понял из их текста, что они просто скормили массу фортепианной музыки своей системе и запустили генерацию чего-то подобного по частотным и гармоническим характеристикам, тоновым модуляциям и ритму. Т.е. - именно имитация шума, а не создание музыки. Т.е. это может быть интересным, как «мозги» синтезатора, позволяющего создавать максимально приближенные к реальности тембры взамен сэмплов, или как гармоническое заполнение в композициях. В общем, всё, что придумывается - куда-нибудь да сгодится :-)

Вполне вероятно можно научить играть по нотам, воспроизводя технику игры тех или иных великих исполнителей-

«- и чушь прекрасную нести!»

Как же, как же, здрассьте:
http://static.giantbomb.com/uploads/scale_small/15/151174/2151418-tumblr_lxpmbleeay1qlsp2fo1_500.jpg

Вы только представьте себе: Вам звонит лично путЕн. Из кремля. И срывающимся голосом, чуть не плача, говорит: дружище, я стольким тебе обязан! Ты - моя последняя опора, я знаю что всегда могу рассчитывать на тебя! Я ща пацанов пришлю, черкани мне бланк предвыборный!
Есть желающие продолжить сценарий?

- а у вас стоит умный автоответчик и голосом мерлин монро отвечает - «приезжай сам!»

Так приедет же! Непременно приедет! Дрон-андроид в нужном обличьи.

встретит его другой андроид в нужном обличии и будут они жить счастливо и проапгрейдятся в один день

Хорошо бы- Но это только если бабосов хватит на собственного контр-андроида (и/или -гиноида) в нужном обличии :) А там пусть себе апгрейдятся до заржавения.

Был уже сценарий! Советский ещё фильм «Имитатор». Там Игорь Скляр голосом Горбачёва вызвал в дурдом спецназ для своего освобождения. Ещё и полномочиями себя наделил от имени Президента:

- А с этими что делать?
- Расстрелять (под мою ответственность).

Н-да. Слова «дурдом» и «спецназ» ключевые для жизни в России. Без них ни один фильм не обходится ;-}

Хм, а ведь теперь можно будет заменить операторов call центра-

Продажников точно можно заменить будет. Я какое-то время назад читал, что в Штатах уже большинство телепродавцов - роботы. Их задача раскрутить клиента, и если тот клюнул - передают уже живому человеку.

Не только продажников. Конфликтогенные отделы по работе с клиентом тоже активно переводят на «роботов», т.к. те не имеют эмоциональной предрасположенности, чем пресекают возможные непонятки-

Что-то как то мелко. Если объединить эту статью и статью Михаила Ваннаха «ИскИн в качестве репетитора или Долой «машину Коменского» можно заменить учителей и преподавателей. Сумма расходов на образование на 2016 год 578,6 млрд руб.

Гым, Светлана, вы слегка не правы. Заменить можно *лекторов*, которые с трибуны произносят текст.
Заменить можно «планировщик занятий», который по результатам тестов предлагает прослушать те или иные лекции.
Невозможно заменить человека, понимающего, почему у одного студента две пятерки а потом три тройки подряд, а у другого никогда не больше четверки, хотя явно мог бы и пятерки получать-

Ваши слова да в уши поклонникам педагогических технологий. Которые встречаются и на просторах «Компьютеры» и преобладают в кабинетах управления образования. Понятно что сегодня я СИЛЬНО не права. Но основная мысль Михаила Ваннаха которую он проводит во многих статьях - нейронные самообучающиеся сети очень быстро совершенствуются и после достижения определенного порога начнут быстро дешеветь. И вот тогда -
А вот тогда очередной переход. Да любое сравнение хромает, а сравнение исторических эпох хромает на все четыре ноги. Но пока все переходы ( от бронзы к железу или от рабства к крепостничеству )совершались крайне беспощадно к тому что в русской традиции называется народом.

А для чего в будущем вообще учить людей чему то, если роботы освоят практически все профессии. Люди будут делать что хотят, и явно не захотят учиться

И WaveNet прочитает текст с нужной интонацией

Осталось только решить откуда машина возьмет интонации. На сегодня это только разметка текста, а значит актер перестанет страховать голос, но не потеряет работы. По крайней мере до тех пор, пока машина не научится понимать не только прямой смысл текста, но и не очевидные коннотации-

Что касается политических провокаций то это чушь. Сейчас полно пародистов которые достаточно качественно могут записать любуб повакационную хрень. Мы не видим никакой войны компроматов просто потому что никто этим похоже не занимается.

Источник: www.computerra.ru

Говорить как человек, говорить лучше человека!

Комментарии: