Нейросеть Udacity создает цифровых лекторов для обучающего видео

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2019-07-09 17:00

новости ит

Нейросеть Lumi?reNet образовательной онлайн-платформы Udacity научилась синтезировать видеолекции любой длины, умело сочетая аудиозапись с соответствующим визуальным рядом.     

Записывать видео для образовательных платформ вроде Coursera или EdX — занятие хоть и благодарное, но трудоемкое. Профессиональные клипы делают в специально оборудованных студиях и программах для монтажа. Udacity, онлайновая образовательная организация, предлагающая свыше 100?000 курсов, решила радикально упростить процесс с помощью ИИ и автоматически генерировать видеолекции из аудиозаписей, рассказывает VentureBeat.

Метод специалистов Udacity отличается простотой, модульным подходом и полной автоматизацией процесса. Нейросеть анимирует лектора, заставляя фигуру двигаться, шевелить губами и моргать, имитируя поведение живого человека. До сих пор такого никто не делал, говорится в статье с описанием принципов работы нейросети Lumi?reNet, выложенной на Arxiv.org.

В модели Lumi?reNet есть компонент оценки позы, который синтезирует изображения фигуры из кадров набора данных, главным образом, путем локализации опорных точек на теле. Второй модуль — двунаправленная рекуррентная долгая краткосрочная память (BLSTM), которая обрабатывает данные в направлении вперед или назад, так что каждый вывод данных отражает предшествующие ему данные. Он отвечает за сопоставление аудиозаписи с визуальными элементами.

В качестве испытания Lumi?reNet разработчики записали лекцию длительностью около восьми часов. Нейросеть создала «убедительные» клипы с плавными жестами и реалистичным движением волос, но, как отмечают сами создатели, цифровая фигура не обманет внимательного зрителя. Например, виртуальный лектор редко моргает, иногда ненатурально двигает губами, а его руки почему-то не в фокусе.

Разработчики надеются, что добавление новых опорных точек в модель улучшит детализацию, а модульный дизайн нейросети позволит тренировать каждый компонент в отдельности.

Китайский поисковик Sugou оцифровал в прошлом году нескольких телеведущих новостей «Синьхуа». Копия диктора Чжана Чжао не отличалась от оригинала, разве что говорила по-английски. ИИ-ведущие смогут вести программы в реальном времени — им не нужны ни студии, ни гримеры.


Источник: hightech.plus

Комментарии: