Система преобразования текста в речь Deep Voice от Baidu научилась говорить с акцентом. Нова модификация системы, Deep Voice 2, обучается, когда в неё загружают записи голосов, причём процесс обработки занимает всего полчаса. Раньше на обработку информации у неё уходили почти сутки.
Как сообщает компания Baidu, Deep Voice 2 распознает сходства между голосами самостоятельно при помощи алгоритмов машинного обучения.
Нейросеть Baidu может создавать качественный голос даже на основе небольших аудиозаписей. Предполагается, что технологию можно будет использовать для того, чтобы научить голосовые интерфейсы говорить тем голосом и с тем акцентом, который приятен хозяину устройства.