Speech2Gesture: нейросеть генерирует жесты на основе речи |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-06-20 15:56 Исследователи из UC Berkley разработали нейросеть, которая на основе речи человека генерирует жесты. Модель обходит state-of-the-art решения по количественной метрике. Исследователи опубликовали датасет с видеозаписями монологов и размеченными жестами, на котором обучалась нейросеть. Когда человек говорит, он передает информацию не только вербально, но и с помощью жестов. Коммуникационные взмахи руками и схожие движения сопровождают речь человека и передают часть информации. Модель работает end-to-end: на вход получает спектограмму речи, а на выходе отдает те жесты ладонями и руками, которые спикер вероятнее всего совершит. Спектограмма — визуальное представление аудиоволны в виде 2D изображения. Модель обучалась на шумных размеченных автоматически данных. Видеодемонстрация работы нейросети:
Данные Исследователи представили датасет, который состоит из 144 часов видеозаписей с речью с распознанными жестами для каждого фрейма. В датасете присутствуют речи 10 различных спикеров, для которых можно было найти многочасовые видеозаписи монологов. Спикеры были специально подобраны разнообразные: телеведущие, лекторы и публичные деятели. Контент речей ранжируется от химии до чтения религиозных трудов. Архитектура модели Обучение модели можно разделить на следующие шаги:
Архитектура в кодировщике аудизаписи — UNet. Предсказанные движения рук должны быть последовательны и плавные. Это достигается с помощью аудиокодировщика всего фрейма и предсказания всех поз фрейма сразу, а не рекуррентно. Сравнение моделей Для сравнения в качестве простых решений были выбраны: предсказание медианной позы, предсказывание случайно выбранной позы, ближайшие соседи, RNN. Метрика оценки качества моделей — процент корректно предсказанных точек позы (PCK). Видно, что модель без дискриминатора для большинства спикеров в данных давала лучшие результаты. Источник: neurohive.io Комментарии: |
|