ИИ Google научился распознавать голоса людей из беспорядочного хора толпы |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-04-14 12:10 Человек обладает способностью выделять голос собеседника из шума, например, в месте большого скопления людей. Эту способность называют «эффектом коктейльной вечеринки». Наш мозг загружает ненужные звуки. Автоматическое разделение звуков на отдельные дорожки компьютером также изучено, но до сих пор такая работа остаётся сложной задачей для машины.
Особенность технологии состоит в одновременном использовании аудиодорожки и видеоряда. Движение губ говорящего должно соответствовать его речи. Визуальный сигнал позволяет не только выделить и усилить нужный голос, но и произвести обратный процесс – сопоставить речь с конкретным человеком на видео. Программа работает с видео, на котором говорят одновременно несколько человек. На выходе метод позволяет получить две аудиодорожки — нужный голос и остальные звуки с шумом. Для тренировки системы специалисты использовали 100 тыс. видео высокого качества с лекциями и монологами на YouTube. Из роликов взяли сегменты с чистой речью, без звуков и музыки на фоне, в которых при этом спикер находится в кадре. В результате получилось около 2000 часов фрагментов видео. Материалы использовали для создания «искусственных коктейльных вечеринок» вместе с посторонним шумом, которые они взяли из Audioset. Результатом стал видеоряд, на котором множество людей говорят одновременно. Во время обучения сеть сопоставляла отдельные аудиодорожки с лицами и составляла «маску» для каждого из говорящих.
Источник: geektimes.ru Комментарии: |
|