OpenAI представила Sora - искусственный интеллект, создающий невероятно реалистичные видеоролики |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-04-21 12:12 Sora, первая модель искусственного интеллекта OpenAI для создания видео из текстовых подсказок, показывает невероятно реалистичные результаты. Созданные ролики длятся до минуты и отличаются высокой детализацией, особенно если они представляют собой реалистичные сцены. Однако, несмотря на то, что инструмент еще не доведен до совершенства, компания проявляет осторожность и уже планирует многочисленные этапы тестирования безопасности, чтобы максимально исключить возможность злоупотреблений. Используя короткие текстовые подсказки, Sora может генерировать сложные сцены, включающие несколько персонажей, определенные типы движений, точные детали окружающего ландшафта и эмоции, которые необходимо передать. Модель не только демонстрирует способность интерпретировать запрос пользователя, но и понимает, как персонажи и объекты будут взаимодействовать в реальном мире. "Мы считаем, что создание моделей, способных понимать видео и понимать все эти очень сложные взаимодействия в нашем мире, — важный шаг для будущих систем искусственного интеллекта", — сказал Тим Брукс, исследователь из OpenAI, в интервью MIT Technology Review. Для разработки Sora инженеры OpenAI адаптировали технологию, лежащую в основе DALL-E-3, своей последней модели генерации изображений. Она использует так называемую диффузионную модель для преобразования случайного набора пикселей в детализированное изображение. Поэтому Sora также адаптирует этот подход для работы с видео, а не с неподвижными изображениями. Кроме того, в Sora есть "трансформатор" - тип нейронной сети, которая может обрабатывать длинные последовательности данных. Метод, используемый Sora, предполагает "нарезку" и сборку коротких последовательностей видеоданных. "Это как если бы у вас была стопка всех видеоизображений, и вы разрезали бы их на маленькие кубики", — объясняет Брукс. Затем трансформатор обрабатывает эти кубики так же, как и набор слов в блоке текста. Это позволило обучить модель на множестве различных типов видео, с разным разрешением, продолжительностью, форматом и направленностью. Невероятно реалистичные сцены Одно из видео, созданных Sora и опубликованных OpenAI, показывает японскую женщину, переходящую ночную улицу Токио, и создано с помощью следующего текстового запроса: "Элегантная женщина идет по токийской улице, залитой теплым неоновым светом и анимированными уличными вывесками. На ней черная кожаная куртка, длинное красное платье и черные сапоги, а в руках — черная сумочка. На ней солнцезащитные очки и губная помада. Она идет уверенно и беззаботно. Улица мокрая и отражающая, создавая зеркальный эффект цветных огней. По ней идет много пешеходов". Вся сцена, созданная Sora, невероятно реалистична. На крупном плане хорошо скоординированы движения главного героя и тех, кто находится на заднем плане. Хорошо переданы все детали сцены, от зданий до контраста освещения. Вторая часть видео — крупный план, на котором видны все неровности цвета лица и текстуры кожи женщины, а на заднем плане пейзаж размыт, как и должно быть при съемке камерой, расположенной на таком расстоянии. Видео, созданное Sora, показывает японскую женщину, "идущую по улице в Токио":
Стоит отметить, что первые модели генерации видео на основе текста появились в 2022 году. Однако создаваемые видеоролики были, как правило, нерегулярными и некачественными. Хотя модель Gen-2 от стартапа Runway значительно улучшила качество своих видеороликов, их продолжительность составляет всего несколько секунд. В отличие от этого, ролики, созданные с помощью Sora, могут длиться до минуты. Модель Lumiere от Google, тем временем, кажется, менее эффективной в создании деталей, когда речь идет, например, об изображении реальных сцен. Однако модель OpenAI еще не совершенна. По словам компании, она все еще может не справиться с точным моделированием сложной сцены и не понять конкретные случаи причинно-следственных связей. Например, если на видео человек надкусывает печенье, на печенье может не остаться следов от укуса. Модель также может путать пространственные детали, такие как лево и право, или испытывать трудности с представлением событий, которые следуют друг за другом во времени. Эти недостатки можно увидеть на видео с японкой, если присмотреться: движения ее ног отрывисты, как будто она немного оступается при ходьбе, а в начале и в конце видео на ней не один и тот же пиджак. Тем не менее все это остается реалистичным и трудно отличимым от настоящего видео. Еще одно видео, созданное Sora, показывает великолепный пейзаж с прослеживанием пары, идущей по улице, снова в "Токио", согласно подсказке:
Риски неправильного использования Хотя модель еще не готова к массовому использованию, OpenAI уже обеспокоена потенциальным злоупотреблением. Если сейчас мы наблюдаем тревожное распространение глубоких подделок, созданных ИИ, то столь реалистичные видео, созданные с такой легкостью, выведут это на новый уровень. Злоумышленники могут, например, использовать Sora для создания реалистичных видео с поддельными зонами конфликтов или демонстрациями. В попытке смягчить эту проблему OpenAI в настоящее время обращается за поддержкой к сторонним тестерам безопасности для планирования будущего развертывания Sora. Инструмент уже включает в себя фильтр, блокирующий запросы с изображениями насилия, секса, ненависти или с участием известных личностей. Еще один фильтр блокирует запросы, нарушающие политику безопасности компании. Кроме того, команда планирует использовать протокол тестирования безопасности, использованный в прошлом году для DALL-E-3. В Sora также будут встроены метки C2PA, позволяющие детекторам ложных изображений отслеживать их происхождение. Кроме того, будут разработаны модели для хранения и защиты с помощью шифрования информации о происхождении изображения, например, даты его создания, обработки и размещения в сети. Источник: new-science.ru Комментарии: |
|