Пока все пытаются отличить реальные ролики от сгенерированных нейросеткой Veo 3, давай попробуем разобраться, как у неё это получается

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-05-28 11:29

ИИ проекты

Пока все пытаются отличить реальные ролики от сгенерированных нейросеткой Veo 3, давай попробуем разобраться, как у неё это получается. Вместе с методистами RuCode перевели для тебя Model card.

Нейросеть Veo 3 создаёт длинные видео в хайрезе сразу с подходящей звуковой дорожкой по текстовому запросу или из изображения.

Архитектура

Veo 3 использует скрытую диффузию. Это стандартный подход для современных генеративных моделей, который позволяет достичь высокого качества работы. В таких моделях процесс диффузии применяется к временным аудио-латентам и пространственно-временных видео-латентам.

Обучающий набор данных

Модель Veo 3 обучалась на аудио-, видео- и графических данных. Наборы аудио- и видеоданных

были снабжены текстовыми комментариями с разной степенью детализации с использованием нескольких моделей Gemini, и отфильтрованы для удаления небезопасных подписей и персональной информации.

Обработка учебного набора данных

Обучающие видео были отфильтрованы по различным показателям безопасности и качества. Все учебные данные были семантически дедуплицированы в различных источниках.

Хард

Для обучения Veo 3 использовались тензорные процессоры (TPU) компании Google. TPU специально созданы для обработки огромных объёмов вычислений и партий данных и могут значительно ускорить обучение LLM.

Софт

Обучение проводилось с использованием ML- фреймворков JAX и Pathway.

Тесты

Veo v3 испытывалась на бенчмарках теста MovieGenBench (видео и видео+аудио) из 1003 промптов только для видео и 527 промптов для формата «видео+аудио». А также из соответствующих видео, сгенерированных другими моделями: MovieGen (видео и видео+аудио), Kling 2.0 (только видео), Minimax (только видео) и Sora Turbo (только видео).

Для выборки использовались оба теста последних моделей видеогенерации. Для формата «только видео» получили образцы из Kling 2.0, OpenAI Sora, Runway Gen-3, WAN 2.1, MiniMax T2V-01. Для «видео+аудио» дополнительно получили ролики из WAN 2.1, Kling 2.0 и Kling 2.0 + MMAudio.

Кроме того, Veo v3 I2V оценили на тесте VBench I2V (генерация изображения в видео), который

состоит из 355 пар «изображение+текст». Для сравнения выбрали следующие генеративные модели: Runway Gen-4, Kling 2.0 (Pro), WAN 2.1, MiniMax I2V-01.

Результаты

Veo 3 показала лучшие результаты среди других современных моделей видеогенерации по общим показателям и по своей способности точно следовать промптам.

Теперь с нетерпением ждём публикации весов на Hugging Face.

Нейросеть Veo 3 создаёт длинные видео в хайрезе сразу с подходящей звуковой дорожкой по текстовому запросу или из изображения.

Архитектура

Veo 3 использует скрытую диффузию. Это стандартный подход для современных генеративных моделей, который позволяет достичь высокого качества работы. В таких моделях процесс диффузии применяется к временным аудио-латентам и пространственно-временных видео-латентам.

Обучающий набор данных

Модель Veo 3 обучалась на аудио-, видео- и графических данных. Наборы аудио- и видеоданных

были снабжены текстовыми комментариями с разной степенью детализации с использованием нескольких моделей Gemini, и отфильтрованы для удаления небезопасных подписей и персональной информации.

Обработка учебного набора данных

Обучающие видео были отфильтрованы по различным показателям безопасности и качества. Все учебные данные были семантически дедуплицированы в различных источниках.

Хард

Для обучения Veo 3 использовались тензорные процессоры (TPU) компании Google. TPU специально созданы для обработки огромных объёмов вычислений и партий данных и могут значительно ускорить обучение LLM.

Софт

Обучение проводилось с использованием ML- фреймворков JAX и Pathway.

Тесты

Veo v3 испытывалась на бенчмарках теста MovieGenBench (видео и видео+аудио) из 1003 промптов только для видео и 527 промптов для формата «видео+аудио». А также из соответствующих видео, сгенерированных другими моделями: MovieGen (видео и видео+аудио), Kling 2.0 (только видео), Minimax (только видео) и Sora Turbo (только видео).

Для выборки использовались оба теста последних моделей видеогенерации. Для формата «только видео» получили образцы из Kling 2.0, OpenAI Sora, Runway Gen-3, WAN 2.1, MiniMax T2V-01. Для «видео+аудио» дополнительно получили ролики из WAN 2.1, Kling 2.0 и Kling 2.0 + MMAudio.

Кроме того, Veo v3 I2V оценили на тесте VBench I2V (генерация изображения в видео), который

состоит из 355 пар «изображение+текст». Для сравнения выбрали следующие генеративные модели: Runway Gen-4, Kling 2.0 (Pro), WAN 2.1, MiniMax I2V-01.

Результаты

Veo 3 показала лучшие результаты среди других современных моделей видеогенерации по общим показателям и по своей способности точно следовать промптам.

Теперь с нетерпением ждём публикации весов на Hugging Face.


Источник: vk.com

Комментарии: