CogVideoX: Код и модель Text-to-video генерации

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.

Обновление до CogVideoX :

переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb;

использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь.

CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.

Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.

Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.

CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.

При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.

Технические параметры CogVideoX-5B не публиковались.

CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.

CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.

Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.

Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.

Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.

Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.

Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.

Локальный запуск доступен в нескольких вариантах:

с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут;

с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app.

Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.

По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.

Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.

Установка и запуск:

# Clone repository & install requirements:

git clone https://github.com/THUDM/CogVideo.git

pip install -r requirements.txt

cd inference

# For Linux and Windows run GradioUI

python gradio_web_demo.py

# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)

PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py

Лицензирование :

Код: Apache 2.0 License.

Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).

Arxiv

Demo

Сообщество в Discord

Модель для Diffusers

VAE для SAT

Модель для SAT

Github [ Stars: 5.5K | Issues: 19 | Forks: 495]


Источник: github.com

Комментарии: