Что общего между нами и Джеймсом Кэмероном? Любовь к генеративному видео! |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-12-07 09:15 Но любовь разная: пока мы с вами смотрим сериал про Бабу Ягу, Кэмерон с помощью ИИ оптимизирует затраты на производство и ускоряет создание графики аж в 2 раза. Разрыв между бытовым и профессиональным использованием нейросетей огромен, но технологии одни и те же. И развиваются они с пугающей скоростью. От крипоты к фотореализму Еще пару лет назад AI-видео были уделом энтузиастов и выглядели, прямо скажем, жутко: неестественные движения, «плавающие» лица, мертвые глаза. Сегодня же отличить качественную генерацию от реальной съемки становится все сложнее. Посмотрите ролик The Wall Street Journal о девушке и ее роботе-помощнике — артефакты генерации там нужно искать с лупой. Несколько раз в год в мире AI-генерации происходит качественный скачок: то разрешение дорастает до 1080p, то длина ролика увеличивается с 8 секунд до 2 минут (спасибо, Kling). И каждая новая фича порождает волну однотипного контента в наших лентах. Последний тренд — видео со звуком от нейросети Veo 3, которая научилась генерировать не только картинку, но и речь, музыку и фоновые шумы по текстовому запросу. Это значительно упростило жизнь контент-мейкерам, которые раньше были вынуждены собирать свои ролики по частям в десятке разных сервисов. Как это работает? В основе большинства современных генераторов лежат так называемые диффузионные модели. Объясним на пальцах: представьте, что вы капнули краску в стакан с водой. Она постепенно растворится — это «прямая диффузия». А теперь представьте, что вы можете запустить процесс в обратную сторону и собрать всю краску обратно в одну каплю. Примерно так и работает нейросеть. Во время обучения ей показывают миллионы картинок, а потом постепенно «портят» их, добавляя шумы. Задача модели — научиться восстанавливать исходное изображение из говна и палок. Когда вы просите ее что-то сгенерировать, то, по сути, даете ей «белый шум» и текстовую подсказку. А она, опираясь на свой опыт, пытается «собрать» из этого шума картинку, соответствующую вашему запросу. Чтобы картинки превратились в связное видео, к «диффузии» подключают трансформеры (архитектура, на которой работают чат-боты). Они видят задачу целиком, разбивают ее на подзадачи и работают с ними параллельно. Проще говоря, трансформеры помогают нейросети «помнить» предыдущий кадр и логически связывать его со следующим. Инструменты Выбор сервисов генерации видео просто огромен, но у каждого инструмента есть свои особенности. Так, Luma, судя по отзывам пользователей, лучше передает движения, а Sora может сделать кадр, в котором будут двигаться несколько персонажей. Kling выдает двухминутные (самые длинные) отрывки, Pika может добавить в ролики уникальные объекты, а Runway предлагает студию для профессионалов, где много всяких полезных фич. Цена — отдельная боль креаторов. Чтобы воспользоваться Veo 3, нужно купить подписку Google AI Ultra за $250. Она дает около 125 видео в высоком качестве, то есть один 8-секундный отрывок будет стоить не меньше $2. Другие инструменты дешевле: Runway c подпиской за $28 позволит создать около 22 роликов по 10 секунд, то есть каждый будет стоить $1,3. Однако важно помнить, что вся эта бухгалтерия не учитывает неудачные варианты, а их будет очень много. На 30-секундный ролик вполне может уйти 300–400 итераций. Нейросети в кино Здесь на ум сразу приходят молодильно-воскрешающие дипфейки. Например, омоложение Роберта Де Ниро в «Ирландце», Харрисона Форда в «Колесе судьбы» и Александра Яценко и Анны Михалковой в «Ровеснике». Или возвращение почившего 15 лет назад Владислава Галкина для нового эпизода сериала «Диверсант». Однако есть кейсы и поинтереснее. В фильме «Всё везде и сразу» генеративное видео использовали для ротоскопирования. В одной из сцен нужно было перенести на передний план камни и песок, а у VFX-команды на это просто не было времени. Художник по визуальным эффектам бубнить не стал и сделал всю работу в Runway. Команда «Дома Давида» оценила нейросети не меньше: история Голиафа из начала шестого эпизода почти полностью сделана в Midjourney, Runway, Kling, Unreal Engine, Nuke и After Effects. Это, к слову, сократило время производства с пяти месяцев до двух недель. И это далеко не все: режиссер Дэйв Кларк, например, собирает материалы для питчингов в том же Runway, а другие кинематографисты с помощью ИИ создают персонажей заднего плана, фоны для анимации и много чего еще. Однако технология пока неидеальна. Нейросетям, как мы помним, нужен промт, а описать какое-то особенное выражение лица или жесты может быть ой как непросто. Также для киноэкрана генерациям не хватает разрешения и глубины цвета. Как сказал основатель студии Main Road Post Арман Яхин, «это как если бы профессиональный фотограф обрабатывал обычный JPEG из интернета». Но это лишь вопрос времени. Такие гиганты, как Netflix, Lionsgate и японская Toei Animation, уже активно внедряют AI в свои процессы. И речь идет не о замене людей, а о том, чтобы дать им новый инструмент, который позволит создавать сложную графику быстрее и дешевле. Источник: vk.com Комментарии: |
|