Модели генерации видео как симуляторы мира

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Мы исследуем масштабное обучение генеративных моделей на видеоданных. В частности, мы совместно обучаем модели условного распространения текста на видео и изображениях различной продолжительности, разрешения и соотношения сторон. Мы используем архитектуру преобразователя, которая работает с пространственно-временными фрагментами скрытых кодов видео и изображений. Наша самая крупная модель Sora способна генерировать минутное видео высокого качества. Наши результаты показывают, что масштабирование моделей генерации видео является многообещающим путем к созданию универсальных симуляторов физического мира.

В этом техническом отчете основное внимание уделяется (1) нашему методу преобразования визуальных данных всех типов в единое представление, позволяющее крупномасштабное обучение генеративных моделей, и (2) качественной оценке возможностей и ограничений Sora. Подробности модели и реализации не включены в этот отчет.

Многие предыдущие работы изучали генеративное моделирование видеоданных с использованием различных методов, включая рекуррентные сети,[^1][^2][^3]генеративно-состязательные сети,[^4][^5][^6][^7]авторегрессионные преобразователи,[^8][^9]и диффузионные модели.[^10][^11][^12]Эти работы часто фокусируются на узкой категории визуальных данных, на более коротких видеороликах или видеороликах фиксированного размера. Sora — это универсальная модель визуальных данных: она может генерировать видео и изображения различной длительности, соотношения сторон и разрешения, вплоть до полной минуты видео высокой четкости.

Превращение визуальных данных в патчи

Мы черпаем вдохновение из больших языковых моделей, которые приобретают универсальные возможности путем обучения на данных в масштабе Интернета.[^13][^14]Успех парадигмы LLM частично обеспечивается использованием токенов, которые элегантно объединяют различные модальности текста — код, математику и различные естественные языки. В этой работе мы рассматриваем, как генеративные модели визуальных данных могут унаследовать такие преимущества. В то время как у LLM есть текстовые токены, у Sora есть визуальные патчи . Ранее было показано, что патчи являются эффективным представлением моделей визуальных данных.[^15][^16][^17][^18]Мы обнаружили, что патчи представляют собой хорошо масштабируемое и эффективное средство обучения генеративных моделей на различных типах видео и изображений.

Фигурные патчи

На высоком уровне мы превращаем видео в патчи, сначала сжимая видео в скрытое пространство более низкого измерения.[^19]и последующее разложение представления на фрагменты пространства-времени.

Сеть сжатия видео

Мы обучаем сеть, уменьшающую размерность визуальных данных.[^20]Эта сеть принимает необработанное видео в качестве входных данных и выводит скрытое представление, сжатое как во времени, так и в пространстве. Сора обучается и впоследствии генерирует видео в этом сжатом скрытом пространстве. Мы также обучаем соответствующую модель декодера, которая отображает сгенерированные латентные данные обратно в пространство пикселей.

Скрытые пятна пространства-времени

Учитывая сжатое входное видео, мы извлекаем последовательность пространственно-временных патчей, которые действуют как токены преобразователя. Эта схема работает и для изображений, поскольку изображения — это просто видеоролики с одним кадром. Наше представление на основе патчей позволяет Sora тренироваться на видео и изображениях с переменным разрешением, продолжительностью и соотношением сторон. Во время вывода мы можем контролировать размер сгенерированных видео, располагая случайно инициализированные патчи в сетке подходящего размера.

Масштабирующие преобразователи для генерации видео

Сора — диффузионная модель.[^21][^22][^23][^24][^25]; учитывая входные зашумленные патчи (и обусловливающую информацию, такую как текстовые подсказки), он обучен прогнозировать исходные «чистые» патчи. Важно отметить, что Сора является диффузионным преобразователем .[^26]Трансформеры продемонстрировали замечательные свойства масштабирования в различных областях, включая языковое моделирование,[^13][^14]компьютерное зрение,[^15][^16][^17][^18]и создание изображений.[^27][^28][^29]

Рисунок Диффузия

В этой работе мы обнаружили, что диффузионные преобразователи эффективно масштабируются и как видеомодели. Ниже мы показываем сравнение образцов видео с фиксированными исходными данными и входными данными по мере обучения. Качество выборки заметно улучшается по мере увеличения обучающих вычислений.

Базовые вычисления

4x вычисления

32x вычисления

Переменная продолжительность, разрешение, соотношение сторон

Предыдущие подходы к созданию изображений и видео обычно изменяли размер, обрезали или обрезали видео до стандартного размера — например, 4-секундных видеороликов с разрешением 256x256. Мы обнаружили, что вместо этого обучение на данных в их исходном размере дает несколько преимуществ.

Гибкость выборки

Sora может просматривать широкоэкранные видео с разрешением 1920x1080p, вертикальные видео с разрешением 1080x1920 и все, что между ними. Это позволяет Sora создавать контент для различных устройств непосредственно с их исходными соотношениями сторон. Это также позволяет нам быстро создавать прототипы контента в меньших размерах, а затем генерировать их в полном разрешении — и все это с использованием одной и той же модели.

Улучшенное кадрирование и композиция.

Эмпирически мы обнаружили, что обучение видео с исходным соотношением сторон улучшает композицию и кадрирование. Мы сравниваем Sora с версией нашей модели, которая обрезает все обучающие видео до квадратных размеров, что является обычной практикой при обучении генеративных моделей. Модель, обученная на квадратных кадрах (слева), иногда создает видеоролики, на которых объект виден лишь частично. Для сравнения, у видео Соры (справа) улучшенное кадрирование.

Понимание языка

Для обучения систем генерации текста в видео требуется большое количество видеороликов с соответствующими текстовыми подписями. Мы применяем технику повторных субтитров, представленную в DALL·E 3.[^30]к видео. Сначала мы обучаем высокоописательную модель субтитров, а затем используем ее для создания текстовых подписей для всех видео в нашем обучающем наборе. Мы обнаружили, что обучение использованию информативных подписей к видео улучшает точность текста, а также общее качество видео.

Как и в DALL·E 3, мы также используем GPT для преобразования коротких запросов пользователя в более длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora создавать высококачественные видеоролики, точно соответствующие подсказкам пользователя.

{ "ключ": "символы" }

утомительный

{ "ключ": "одежда" }

совершив приятную прогулку

{ "ключ": "места" }

в течение

{ "ключ": "погода" }

Подсказки с изображениями и видео

Все результаты выше и на нашей целевой странице демонстрируют примеры преобразования текста в видео. Но Соре также можно предложить другие входные данные, например уже существующие изображения или видео. Эта возможность позволяет Sora выполнять широкий спектр задач по редактированию изображений и видео — создавать идеально цикличное видео, анимировать статические изображения, продлевать видео вперед или назад во времени и т. д.

Анимация изображений DALL·E

Sora способна генерировать видео, предоставляя изображение и подсказку в качестве входных данных. Ниже мы показываем примеры видеороликов, созданных на базе DALL·E 2.[^31]и ДАЛЛ·Е 3[^30]изображений.

Собака породы сиба-ину в берете и черной водолазке.

Монстр Иллюстрация в стиле плоского дизайна разнообразного семейства монстров. В группу входят пушистый коричневый монстр, гладкий черный монстр с усиками, пятнистый зеленый монстр и крошечный монстр в горошек, которые взаимодействуют в игровой среде.

Изображение реалистичного облака с надписью «СОРА».

В богато украшенном историческом зале достигает пика и начинает падать огромная приливная волна. Два серфера, воспользовавшись моментом, умело лавируют по поверхности волны.

Расширение созданных видео

Сора также способна продлевать видео вперед или назад во времени. Ниже приведены четыре видеоролика, которые были продлены назад во времени, начиная с сегмента сгенерированного видео. В результате каждое из четырех видео начинается по-другому, но все четыре видео ведут к одному и тому же финалу.

Входное видео

Подключение видео

Мы также можем использовать Sora для постепенной интерполяции между двумя входными видео, создавая плавные переходы между видео с совершенно разными сюжетами и композициями сцен. В примерах ниже видео в центре интерполируются между соответствующими видео слева и справа.

Возможности создания изображений

Сора также способна генерировать изображения. Мы делаем это, размещая участки гауссовского шума в пространственной сетке с временной протяженностью в один кадр. Модель может генерировать изображения различных размеров — до разрешения 2048x2048.

Портрет крупным планом женщины осенью, предельная детализация, малая глубина резкости
Яркий коралловый риф, изобилующий разноцветными рыбами и морскими существами.
Цифровое искусство молодого тигра под яблоней в стиле матовой живописи с великолепными деталями
Заснеженная горная деревня с уютными домиками и северным сиянием, высокой детализацией и фотореалистичной цифровой зеркальной камерой, 50 мм f/1,2.

Новые возможности моделирования

Мы обнаружили, что видеомодели демонстрируют ряд интересных новых возможностей при масштабном обучении. Эти возможности позволяют Соре моделировать некоторые аспекты людей, животных и окружающей среды из физического мира. Эти свойства возникают без каких-либо явных индуктивных отклонений для трехмерных объектов, объектов и т. д. — это чисто масштабные явления.

3D-консистенция. Sora может создавать видео с динамическим движением камеры. Когда камера сдвигается и вращается, люди и элементы сцены последовательно перемещаются в трехмерном пространстве.

Дальняя когерентность и постоянство объекта. Серьезной проблемой для систем генерации видео является поддержание временной согласованности при выборке длинных видеороликов. Мы обнаружили, что Сора часто, хотя и не всегда, способен эффективно моделировать как краткосрочные, так и долгосрочные зависимости. Например, наша модель может сохранять людей, животных и объекты, даже когда они перекрыты или выходят за пределы кадра. Аналогично, он может генерировать несколько кадров одного и того же персонажа в одном образце, сохраняя их внешний вид на протяжении всего видео.

Взаимодействие с миром. Иногда Сора может простыми способами имитировать действия, влияющие на состояние мира. Например, художник может оставить на холсте новые мазки, которые сохранятся со временем, или мужчина может съесть гамбургер и оставить следы от укусов.

Моделирование цифровых миров. Сора также способен моделировать искусственные процессы — одним из примеров являются видеоигры. Сора может одновременно управлять игроком в Minecraft с помощью базовой политики, а также отображать мир и его динамику с высокой точностью. Эти возможности можно реализовать с нуля, предложив Соре подписи с упоминанием «Minecraft».

Эти возможности позволяют предположить, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке высокофункциональных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые живут в них.

Обсуждение

В настоящее время Сора как симулятор имеет множество ограничений. Например, он неточно моделирует физику многих основных взаимодействий, таких как разбитие стекла. Другие взаимодействия, например употребление пищи, не всегда приводят к правильным изменениям состояния объекта. На нашей целевой странице мы перечисляем другие распространенные режимы сбоя модели, такие как некогерентность, возникающая при длительных выборках или спонтанное появление объектов .

Мы считаем, что возможности Sora сегодня демонстрируют, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке эффективных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые живут в них.


Источник: openai.com

Комментарии: