Нейросеть Microsoft научилась говорить почти без помощи людей |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-05-24 11:56 Специалисты Microsoft воспользовались системой неконтролируемого обучения, раздела машинного обучения, использующего немаркированные данные. Их нейросеть произносит свлова почти идеально, и для этого было достаточно всего 200 аудиозаписей с транскрипцией. В статье «Almost Unsupervised Text to Speech and Automatic Speech Recognition» разработчики описали, как им удалось добиться результата. Ключевым элементом стал Transformers — новый тип нейронной архитектуры, представленный в 2017 году учеными из Google Brain. Как и другие глубокие нейросети, эта содержит искусственные нейроны (математические функции, приблизительно имитирующие функции нейронов мозга), расположенные связанными между собой слоями, которые передают сигналы входящих данных и медленно накапливают семантическую силу или вес каждой связи. Отличие Transformers в том, что в ней каждый входящий элемент связан с исходящим, и нагрузка на них вычисляется динамически. Применив эту архитектуру, специалисты Microsoft представили письменный текст или устную речь в виде входящих или исходящих данных, а в качестве их источника выбрали открытую базу аудиозаписей с английской разговорной речью и транскрипцией LJSpeech. Из нее они случайным образом выбрали 200 клипов, сообщает VentureBeat. Результат оказался вполне приличным: алгоритм легко превзошел трех главных конкурентов, а многие из опубликованных примеров компьютерной речи звучали почти неотличимо от человеческой. Точность артикуляции составила 99,84%. Статья будет представлена на Международной конференции по машинному обучению в Калифорнии. Команда Microsoft планирует опубликовать код в ближайшие недели. На днях Google показала первый ИИ для перевода устрой речи с одного языка на другой без преобразования фразы в текст и обратно. Алгоритм работает быстрее каскадных аналогов, но его точность пока не на высоте. Источник: hightech.plus Комментарии: |
|