Пока все пытаются отличить реальные ролики от сгенерированных нейросеткой Veo 3, давай попробуем разобраться, как у неё это получается |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-05-28 11:29 Пока все пытаются отличить реальные ролики от сгенерированных нейросеткой Veo 3, давай попробуем разобраться, как у неё это получается. Вместе с методистами RuCode перевели для тебя Model card. Нейросеть Veo 3 создаёт длинные видео в хайрезе сразу с подходящей звуковой дорожкой по текстовому запросу или из изображения. Архитектура Veo 3 использует скрытую диффузию. Это стандартный подход для современных генеративных моделей, который позволяет достичь высокого качества работы. В таких моделях процесс диффузии применяется к временным аудио-латентам и пространственно-временных видео-латентам. Обучающий набор данных Модель Veo 3 обучалась на аудио-, видео- и графических данных. Наборы аудио- и видеоданных были снабжены текстовыми комментариями с разной степенью детализации с использованием нескольких моделей Gemini, и отфильтрованы для удаления небезопасных подписей и персональной информации. Обработка учебного набора данных Обучающие видео были отфильтрованы по различным показателям безопасности и качества. Все учебные данные были семантически дедуплицированы в различных источниках. Хард Для обучения Veo 3 использовались тензорные процессоры (TPU) компании Google. TPU специально созданы для обработки огромных объёмов вычислений и партий данных и могут значительно ускорить обучение LLM. Софт Обучение проводилось с использованием ML- фреймворков JAX и Pathway. Тесты Veo v3 испытывалась на бенчмарках теста MovieGenBench (видео и видео+аудио) из 1003 промптов только для видео и 527 промптов для формата «видео+аудио». А также из соответствующих видео, сгенерированных другими моделями: MovieGen (видео и видео+аудио), Kling 2.0 (только видео), Minimax (только видео) и Sora Turbo (только видео). Для выборки использовались оба теста последних моделей видеогенерации. Для формата «только видео» получили образцы из Kling 2.0, OpenAI Sora, Runway Gen-3, WAN 2.1, MiniMax T2V-01. Для «видео+аудио» дополнительно получили ролики из WAN 2.1, Kling 2.0 и Kling 2.0 + MMAudio. Кроме того, Veo v3 I2V оценили на тесте VBench I2V (генерация изображения в видео), который состоит из 355 пар «изображение+текст». Для сравнения выбрали следующие генеративные модели: Runway Gen-4, Kling 2.0 (Pro), WAN 2.1, MiniMax I2V-01. Результаты Veo 3 показала лучшие результаты среди других современных моделей видеогенерации по общим показателям и по своей способности точно следовать промптам. Теперь с нетерпением ждём публикации весов на Hugging Face. Нейросеть Veo 3 создаёт длинные видео в хайрезе сразу с подходящей звуковой дорожкой по текстовому запросу или из изображения. Архитектура Veo 3 использует скрытую диффузию. Это стандартный подход для современных генеративных моделей, который позволяет достичь высокого качества работы. В таких моделях процесс диффузии применяется к временным аудио-латентам и пространственно-временных видео-латентам. Обучающий набор данных Модель Veo 3 обучалась на аудио-, видео- и графических данных. Наборы аудио- и видеоданных были снабжены текстовыми комментариями с разной степенью детализации с использованием нескольких моделей Gemini, и отфильтрованы для удаления небезопасных подписей и персональной информации. Обработка учебного набора данных Обучающие видео были отфильтрованы по различным показателям безопасности и качества. Все учебные данные были семантически дедуплицированы в различных источниках. Хард Для обучения Veo 3 использовались тензорные процессоры (TPU) компании Google. TPU специально созданы для обработки огромных объёмов вычислений и партий данных и могут значительно ускорить обучение LLM. Софт Обучение проводилось с использованием ML- фреймворков JAX и Pathway. Тесты Veo v3 испытывалась на бенчмарках теста MovieGenBench (видео и видео+аудио) из 1003 промптов только для видео и 527 промптов для формата «видео+аудио». А также из соответствующих видео, сгенерированных другими моделями: MovieGen (видео и видео+аудио), Kling 2.0 (только видео), Minimax (только видео) и Sora Turbo (только видео). Для выборки использовались оба теста последних моделей видеогенерации. Для формата «только видео» получили образцы из Kling 2.0, OpenAI Sora, Runway Gen-3, WAN 2.1, MiniMax T2V-01. Для «видео+аудио» дополнительно получили ролики из WAN 2.1, Kling 2.0 и Kling 2.0 + MMAudio. Кроме того, Veo v3 I2V оценили на тесте VBench I2V (генерация изображения в видео), который состоит из 355 пар «изображение+текст». Для сравнения выбрали следующие генеративные модели: Runway Gen-4, Kling 2.0 (Pro), WAN 2.1, MiniMax I2V-01. Результаты Veo 3 показала лучшие результаты среди других современных моделей видеогенерации по общим показателям и по своей способности точно следовать промптам. Теперь с нетерпением ждём публикации весов на Hugging Face. Источник: vk.com Комментарии: |
|