CogVideoX: Код и модель Text-to-video генерации |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-08-15 11:36 CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года. Обновление до CogVideoX : переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb; использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь. CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео. Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна. Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов. CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API. При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна. Технические параметры CogVideoX-5B не публиковались. CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество. CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами. Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео. Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями. Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации. Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели. Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках. Локальный запуск доступен в нескольких вариантах: с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут; с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app. Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py. По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д. Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео. Установка и запуск: # Clone repository & install requirements: git clone https://github.com/THUDM/CogVideo.git pip install -r requirements.txt cd inference # For Linux and Windows run GradioUI python gradio_web_demo.py # For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090) PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py Лицензирование : Код: Apache 2.0 License. Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии). Arxiv Demo Сообщество в Discord Модель для Diffusers VAE для SAT Модель для SAT Github [ Stars: 5.5K | Issues: 19 | Forks: 495] Источник: github.com Комментарии: |
|