CogVideoX: Код и модель Text-to-video генерации

2024-08-15 11:36

компьютерная лингвистика, реализация нейронной сети

CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.

Обновление до CogVideoX :

переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb;

использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь.

CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.

Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.

Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.

CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.

При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.

Технические параметры CogVideoX-5B не публиковались.

CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.

CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.

Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.

Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.

Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.

Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.

Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.

Локальный запуск доступен в нескольких вариантах:

с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут;

с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app.

Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.

По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.

Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.

Установка и запуск:

# Clone repository & install requirements:

git clone https://github.com/THUDM/CogVideo.git

pip install -r requirements.txt

cd inference

# For Linux and Windows run GradioUI

python gradio_web_demo.py

# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)

PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py

Лицензирование :

Код: Apache 2.0 License.

Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).

Arxiv

Demo

Сообщество в Discord

Модель для Diffusers

VAE для SAT

Модель для SAT

Github [ Stars: 5.5K | Issues: 19 | Forks: 495]

Источник: github.com



		CogVideoX: Код и модель Text-to-video генерации
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-08-15 11:36 компьютерная лингвистика, реализация нейронной сети CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года. Обновление до CogVideoX : переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb; использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь. CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео. Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна. Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов. CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API. При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна. Технические параметры CogVideoX-5B не публиковались. CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество. CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами. Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео. Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями. Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации. Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели. Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках. Локальный запуск доступен в нескольких вариантах: с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут; с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app. Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py. По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д. Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео. Установка и запуск: # Clone repository & install requirements: git clone https://github.com/THUDM/CogVideo.git pip install -r requirements.txt cd inference # For Linux and Windows run GradioUI python gradio_web_demo.py # For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090) PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py Лицензирование : Код: Apache 2.0 License. Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии). Arxiv Demo Сообщество в Discord Модель для Diffusers VAE для SAT Модель для SAT Github [ Stars: 5.5K \| Issues: 19 \| Forks: 495] Источник: github.com Комментарии:

CogVideoX: Код и модель Text-to-video генерации

Комментарии: