Нейросети научились анимировать «Флинтстоунов» по текстовому описанию |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-04-14 19:05 Американские разработчики научили нейросети по текстовому описанию создавать короткие анимированные ролики с персонажами мультсериала «Флинтстоуны». Для обучения модели CRAFT использовался массив из более чем 25 тысяч вручную размеченных роликов, говорится в статье, доступной на arXiv.org. В последнее время разработчики все чаще экспериментируют с нейросетями, генерирующими контент на основе текстового описания. Например, недавно Microsoft представила программу, которая может создавать картинку на основе текста. Однако со статичной картинкой работать значительно легче, чем с движущимися объектами, поэтому в области генерации анимированных изображений по текстовому описанию пока что не было заметного прогресса. Специалисты из Института искусственного интеллекта Аллена и Иллинойсского университета в Урбане-Шампейне представили модель CRAFT (Composition, Retrieval and Fusion Network, «составляющая, добывающая и спаивающая нейросеть»), которая способна генерировать анимированные сцены на основе текстового описания сцены и действий персонажей. CRAFT состоит из трех разных нейросетей, которые позволяют выделять в текстовом описании подходящую композицию сцены, сущности (сюда входят как одушевленные, так и неодушевленные объекты) и фон. Для обучения разработчики использовали 25184 вручную размеченных трехсекундных (75 кадров) роликов со сценами из мультсериала «Флинтстоуны», при разметке которых авторы указывали кто присутствует на экране и что он делает. CRAFT на обучающей выборке "понимает" кто и что делает, и затем использует подходящие части роликов при генерации новых сцен, а не рисует картинку с нуля. Результаты работы программы после обучения можно оценить на демонстрационного видео, опубликованного разработчиками:
Из ролика видно, что программа иногда выдает ошибки на разных уровнях исполнения: например, Вильма разговаривает по телефону, повернувшись лицом в другую сторону, а Фред в одном из роликов бежит на месте. Тем не менее, CRAFT демонстрирует заметный прогресс в области генерации видеоконтента из текстового описания - многие сцены выглядит именно так, как себе их мог бы представить человек, прочитавший текст. Стоит отметить, что пока что возможное применение представленного метода сильно ограничивает необходимость в ручной разметке большого объема данных. Существуют и другие нейросети помогающие обрабатывать и генерировать видео. Например, в Индийском технологическом институте недавно разработали алгоритм, который может воссоздать движение на видео из размытого кадра. Николай Воронцов Источник: nplus1.ru Комментарии: |
|