Нейросеть нарисовала лицо по голосу |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-05-27 11:25 нейросети новости, архитектура нейронных сетей, алгоритмы распознавания речи, распознавание образов Американские разработчики представили нейросетевую модель Speech2Face. Обученная на нескольких миллионах видео, эта модель умеет воссоздавать по спектрограмме речи человека примерное изображение его лица, основываясь на трех основных параметрах: поле, расе и возрасте. Описание алгоритма и результаты его работы доступны в препринте, опубликованном на arXiv.org. По голосу человека можно с разной точностью определить некоторые его особенности: легко можно определить пол, чуть сложнее (но все равно возможно) — возраст, а наличие акцента дает общее представление о национальности. В результате этого можно примерно представить, как выглядит человек, но это представление не будет достаточно точным. Ученые из Массачусетского технологического института при участии Тэхёна О (Tae-Hyun Oh) решили проверить, можно ли точно восстановить внешность человека по его голосу с помощью машинного обучения. Для обучения нейросети они использовали датасет AVSpeech, состоящий из более миллиона коротких видео более ста тысяч разных людей: каждое видео в базе данных разделено на аудио- и видеодорожку. Архитектура натренированной нейросети устроена следующим образом. Сначала предварительно натренированный алгоритм VGG-Face (ранее его использовали для создания модели, которая умеет определять сексуальную ориентацию человека — при условии ее бинарности) использует особенности лица человека из кадра на видео для создания изображения лица человека в анфас с нейтральным выражением лица. Другая часть алгоритма воссоздает из аудиодорожки использованного видео (небольшого фрагмента — от 3 до 6 секунд) спектрограмму речи и, используя результаты из параллельной нейросети, генерирующей изображение лица, дает на выход примерное изображение лица человека, который разговаривает на видео. На прошлой неделе другой алгоритм, который выделяет особенности лица из изображения человека, использовали для того, чтобы превратить статичные изображения (не только фотографии, но и картины) в анимированные изображения. Ознакомиться с результатами работы вы можете тут. Елизавета Ивтушок Источник: nplus1.ru Комментарии: |
|