Нейросеть реалистично заполнила прерывания в аудизвонке

2020-04-02 20:48

Во время аудиозвонка часто возникают короткие прерывания, из-за которых речь собеседника кажется прерывистой и неестественной. Google разработала нейросетевой алгоритм, который анализирует последние фрагменты речи и заполняет паузу реалистично синтезированным голосом собеседника. Компания несколько месяцев тестировала эту функцию на смартфонах Pixel 4, а теперь сделает доступной на других моделях, сообщается в блоге Google AI.

Во время аудиозвонка через интернет сигнал может преодолевать множество сетей в разных странах. Это приводит к тому, что даже при качественных алгоритмах сжатия и согласования фрагментов звука в самом сервисе, конечное качество связи у пользователя может быть низким, потому что на одном или нескольких промежуточных узлах часть пакетов теряется.

Эта проблема известна давно, поэтому почти во всех программах применяется тот или иной алгоритм маскировки потери пакетов (PLC). Обычно алгоритм PLC повторяет последний записанный фрагмент или новый звук с базовыми характеристиками фрагмента, и для коротких пауз масштаба 10-20 миллисекунд этот может давать приемлемое качество. Но если потерялось больше пакетов и пауза увеличилась до нескольких десятков миллисекунд, работа алгоритма становится явно заметна.

Разработчики под руководством Ольги Шароновой (Olga Sharonova) из Google и Тома Уолтерса (Tom Walters) из DeepMind создали алгоритм, который способен создавать реалистичную замену утерянным пакетам, даже если пауза длится несколько десятков миллисекунд. Алгоритм основан на нейросети для синтеза звука WaveRNN, созданной разработчиками из этих компаний в 2018 году.

Новый алгоритм WaveNetEQ состоит из двух основных частей: автокодировщика и условной сети. Условная сеть отвечает за сохранения просодии голоса и анализирует спектрограмму последних нескольких сотен миллисекунд перед паузой. Автокодировщик отвечает непосредственно за синтез звука и получает небольшой последний фрагмент в несколько десятков миллисекунд, а также данные от условной сети.

Алгоритм обучен на данных 100 человек, говорящих на 48 разных языках, и потенциально способен работать с другими языками, потому что он смог обучиться общему представлению о звуковой структуре человеческой речи. Авторы отмечают, что из-за временных ограничений алгоритм способен эффективно работать только с отдельными звуками и слогами, а не с целыми словами.

Google сумела адаптировать алгоритм для работы в реальном времени на смартфонах и с декабря тестировала его в Duo на смартфонах Google Pixel 4, а теперь начала распространять его на других устройствах. Авторы опубликовали фрагменты речи, обработанные существующим алгоритмом NetEQ и новым WaveNetEQ:

NetEQ

WaveNetEQ

Потенциально паузы в речи можно было бы заполнять с помощью алгоритма предсказания слова по уже сказанному фрагменту, который применяется в виртуальных клавиатурах, а также персонализированного алгоритма синтеза речи. В конце 2019 года Amazon представила сервис, позволяющий получить нейросетевую модель, говорящую голосом определенного человека.

Григорий Копиев

Источник: nplus1.ru



		Нейросеть реалистично заполнила прерывания в аудизвонке
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-04-02 20:48 нейросети новости Во время аудиозвонка часто возникают короткие прерывания, из-за которых речь собеседника кажется прерывистой и неестественной. Google разработала нейросетевой алгоритм, который анализирует последние фрагменты речи и заполняет паузу реалистично синтезированным голосом собеседника. Компания несколько месяцев тестировала эту функцию на смартфонах Pixel 4, а теперь сделает доступной на других моделях, сообщается в блоге Google AI. Во время аудиозвонка через интернет сигнал может преодолевать множество сетей в разных странах. Это приводит к тому, что даже при качественных алгоритмах сжатия и согласования фрагментов звука в самом сервисе, конечное качество связи у пользователя может быть низким, потому что на одном или нескольких промежуточных узлах часть пакетов теряется. Эта проблема известна давно, поэтому почти во всех программах применяется тот или иной алгоритм маскировки потери пакетов (PLC). Обычно алгоритм PLC повторяет последний записанный фрагмент или новый звук с базовыми характеристиками фрагмента, и для коротких пауз масштаба 10-20 миллисекунд этот может давать приемлемое качество. Но если потерялось больше пакетов и пауза увеличилась до нескольких десятков миллисекунд, работа алгоритма становится явно заметна. Разработчики под руководством Ольги Шароновой (Olga Sharonova) из Google и Тома Уолтерса (Tom Walters) из DeepMind создали алгоритм, который способен создавать реалистичную замену утерянным пакетам, даже если пауза длится несколько десятков миллисекунд. Алгоритм основан на нейросети для синтеза звука WaveRNN, созданной разработчиками из этих компаний в 2018 году. Новый алгоритм WaveNetEQ состоит из двух основных частей: автокодировщика и условной сети. Условная сеть отвечает за сохранения просодии голоса и анализирует спектрограмму последних нескольких сотен миллисекунд перед паузой. Автокодировщик отвечает непосредственно за синтез звука и получает небольшой последний фрагмент в несколько десятков миллисекунд, а также данные от условной сети. Схема работы алгоритма Google Алгоритм обучен на данных 100 человек, говорящих на 48 разных языках, и потенциально способен работать с другими языками, потому что он смог обучиться общему представлению о звуковой структуре человеческой речи. Авторы отмечают, что из-за временных ограничений алгоритм способен эффективно работать только с отдельными звуками и слогами, а не с целыми словами. Google сумела адаптировать алгоритм для работы в реальном времени на смартфонах и с декабря тестировала его в Duo на смартфонах Google Pixel 4, а теперь начала распространять его на других устройствах. Авторы опубликовали фрагменты речи, обработанные существующим алгоритмом NetEQ и новым WaveNetEQ: NetEQ WaveNetEQ Потенциально паузы в речи можно было бы заполнять с помощью алгоритма предсказания слова по уже сказанному фрагменту, который применяется в виртуальных клавиатурах, а также персонализированного алгоритма синтеза речи. В конце 2019 года Amazon представила сервис, позволяющий получить нейросетевую модель, говорящую голосом определенного человека. Григорий Копиев Источник: nplus1.ru Комментарии:

Нейросеть реалистично заполнила прерывания в аудизвонке

Комментарии: