Голос Google Assistant максимально приблизился к человеческому

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

Атаки на ИИ
ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Промпты. Генеративные запросы
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2017-10-07 20:00

ИТ-гиганты, ИИ проекты

Занимающаяся разработками в области искусственного интеллекта компания DeepMind, которая является частью холдинга Alphabet, заявила, что её инновационная технология синтеза человеческой речи WaveNet теперь подходит для использования в потребительских продуктах вроде Google Assistant.

Система WaveNet была представлена ещё в прошлом году. Она вывела синтез человеческой речи на качественно новый уровень, но для её работы требовались огромные вычислительные мощности. Специалистам DeepMind удалось решить эту проблему, сделав технологию в 1 000 раз более эффективной.

В прошлом для озвучивания какого-либо текста использовались конкатенативные системы TTS, использовавшие огромную базу данных высококачественных записей от одного автора. Эти записи разбиваются на крошечные части, которые затем могут быть объединены для генерации синтетической речи. Именно поэтому такая речь звучит неестественно.

В основе WaveNet лежат нейронные сети. Вместо использования заранее записанных слов и предложений система обучает нейронные сети с помощью большого количества образцов человеческой речи, чтобы технология могла самостоятельно научиться генерировать человекоподобную речь. На этом этапе нейронная сеть определяет основную структуру речи, как, например, какие тоны следовали друг за другом и которые из них были более реалистичными. Затем она синтезирует один голос за раз, учитывая при этом особенности предыдущего образца. В результате голос содержит естественную интонацию и даже такие особенности, как звуки от губ.

Этот подход не только генерирует более естественную синтетическую речь, но и позволяет со временем добиться лучшего результата, так как нейронные сети будут постоянно продолжать обучаться. Такая модель также имеет такое преимущество, как простота модификации, позволяя создавать любое количество уникальных голосов из смешанных наборов данных.

Изначально WaveNet могла генерировать только 0,02 секунды синтетической речи за 1 секунду. Но новая версия стала в 1 000 раз быстрее и теперь способна создавать 20 секунд качественной речи всего за 1 секунду. Она также может генерировать 16-битные аудиозаписи с частотой 24 кГц, что сопоставимо CD-дискам. Средняя оценка качества выдаваемой WaveNet речи выросла с 4,2 до 4,35. Для сравнения, у человека этот показатель составляет около 4,67.

Новая версия WaveNet уже начала использоваться в виртуальном помощнике Google Assistant.

Телеграм: t.me/ainewsline

Источник: vk.com



		Голос Google Assistant максимально приблизился к человеческому
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2017-10-07 20:00 ИТ-гиганты, ИИ проекты Занимающаяся разработками в области искусственного интеллекта компания DeepMind, которая является частью холдинга Alphabet, заявила, что её инновационная технология синтеза человеческой речи WaveNet теперь подходит для использования в потребительских продуктах вроде Google Assistant. Система WaveNet была представлена ещё в прошлом году. Она вывела синтез человеческой речи на качественно новый уровень, но для её работы требовались огромные вычислительные мощности. Специалистам DeepMind удалось решить эту проблему, сделав технологию в 1 000 раз более эффективной. В прошлом для озвучивания какого-либо текста использовались конкатенативные системы TTS, использовавшие огромную базу данных высококачественных записей от одного автора. Эти записи разбиваются на крошечные части, которые затем могут быть объединены для генерации синтетической речи. Именно поэтому такая речь звучит неестественно. В основе WaveNet лежат нейронные сети. Вместо использования заранее записанных слов и предложений система обучает нейронные сети с помощью большого количества образцов человеческой речи, чтобы технология могла самостоятельно научиться генерировать человекоподобную речь. На этом этапе нейронная сеть определяет основную структуру речи, как, например, какие тоны следовали друг за другом и которые из них были более реалистичными. Затем она синтезирует один голос за раз, учитывая при этом особенности предыдущего образца. В результате голос содержит естественную интонацию и даже такие особенности, как звуки от губ. Этот подход не только генерирует более естественную синтетическую речь, но и позволяет со временем добиться лучшего результата, так как нейронные сети будут постоянно продолжать обучаться. Такая модель также имеет такое преимущество, как простота модификации, позволяя создавать любое количество уникальных голосов из смешанных наборов данных. Изначально WaveNet могла генерировать только 0,02 секунды синтетической речи за 1 секунду. Но новая версия стала в 1 000 раз быстрее и теперь способна создавать 20 секунд качественной речи всего за 1 секунду. Она также может генерировать 16-битные аудиозаписи с частотой 24 кГц, что сопоставимо CD-дискам. Средняя оценка качества выдаваемой WaveNet речи выросла с 4,2 до 4,35. Для сравнения, у человека этот показатель составляет около 4,67. Новая версия WaveNet уже начала использоваться в виртуальном помощнике Google Assistant. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Голос Google Assistant максимально приблизился к человеческому

Комментарии: