Нейросеть Udacity создает цифровых лекторов для обучающего видео |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-07-09 17:00 Нейросеть Lumi?reNet образовательной онлайн-платформы Udacity научилась синтезировать видеолекции любой длины, умело сочетая аудиозапись с соответствующим визуальным рядом. Записывать видео для образовательных платформ вроде Coursera или EdX — занятие хоть и благодарное, но трудоемкое. Профессиональные клипы делают в специально оборудованных студиях и программах для монтажа. Udacity, онлайновая образовательная организация, предлагающая свыше 100?000 курсов, решила радикально упростить процесс с помощью ИИ и автоматически генерировать видеолекции из аудиозаписей, рассказывает VentureBeat. Метод специалистов Udacity отличается простотой, модульным подходом и полной автоматизацией процесса. Нейросеть анимирует лектора, заставляя фигуру двигаться, шевелить губами и моргать, имитируя поведение живого человека. До сих пор такого никто не делал, говорится в статье с описанием принципов работы нейросети Lumi?reNet, выложенной на Arxiv.org. В модели Lumi?reNet есть компонент оценки позы, который синтезирует изображения фигуры из кадров набора данных, главным образом, путем локализации опорных точек на теле. Второй модуль — двунаправленная рекуррентная долгая краткосрочная память (BLSTM), которая обрабатывает данные в направлении вперед или назад, так что каждый вывод данных отражает предшествующие ему данные. Он отвечает за сопоставление аудиозаписи с визуальными элементами. В качестве испытания Lumi?reNet разработчики записали лекцию длительностью около восьми часов. Нейросеть создала «убедительные» клипы с плавными жестами и реалистичным движением волос, но, как отмечают сами создатели, цифровая фигура не обманет внимательного зрителя. Например, виртуальный лектор редко моргает, иногда ненатурально двигает губами, а его руки почему-то не в фокусе. Разработчики надеются, что добавление новых опорных точек в модель улучшит детализацию, а модульный дизайн нейросети позволит тренировать каждый компонент в отдельности. Китайский поисковик Sugou оцифровал в прошлом году нескольких телеведущих новостей «Синьхуа». Копия диктора Чжана Чжао не отличалась от оригинала, разве что говорила по-английски. ИИ-ведущие смогут вести программы в реальном времени — им не нужны ни студии, ни гримеры. Источник: hightech.plus Комментарии: |
|