Современные генеративные модели и приложения на их основе |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-09-17 11:16 Привет, Хабр! Меня зовут Айбек Аланов. Я руковожу группой Controllable Generative AI в FusionBrain Lab Института AIRI и Центром глубинного обучения на байесовских методах в Институте искусственного интеллекта и цифровых наук НИУ ВШЭ и занимаюсь GenAI: работаю с cutting-edge-моделями и помогаю им стать частью прикладных решений. В последние годы это одно из самых горячих направлений в машинном обучении. Нейросети не просто понимают данные, но и создают что-то новое: от картинок и видео до сложных 3D-объектов или дизайна молекул. В этом материале по мотивам моего доклада с True Tech Day я расскажу, что происходит в этой области прямо сейчас. Какие архитектуры используются? На что способны современные модели? И самое главное, как все это применить в реальных задачах. Сначала расскажу об истории генеративных моделей для изображений: как они развивались и в каком состоянии находятся сейчас. Затем остановлюсь на двух основных типах, разберу их особенности, преимущества и ограничения. В завершение объясню, в каких практических задачах их можно использовать и когда выбирать тот или иной тип. План: История генеративных моделей Активное развитие в этой области началось относительно недавно. Первые значимые работы появились в середине 2010-х: в 2014-м году исследователи описали GAN (Generative Adversarial Networks) и VAE (Variational Autoencoders). ![]() За ними — диффузионные модели: ![]() В последние годы также набрали популярность авторегрессионные модели, которые сегодня применяются во многих решениях: ChatGPT, Stable Diffusion и тому подобных: ![]() Развитие генеративных моделей начиналось с создания достаточно простых объектов. В частности, речь шла об изображениях с разрешением всего 30 на 30 пикселей. В 2014 году технологии позволяли создавать картинки черно-белых предметов или цифр: ![]() Спустя два года появились авторегрессионные модели, способные генерировать цветные изображения с чуть более высоким разрешением, хотя и с плохим визуальным качеством: ![]() К 2018 году GAN набирает популярность, и на его основе появляются сервисы, создающие картинки, практически неотличимые от реальных фотографий: ![]() Особенно успешной оказалась StyleGAN, хорошо справляющаяся с генерацией лиц людей. Другая модель, BigGAN, умела рисовать объекты разных классов из известного датасета ImageNet. До 2020 года именно GAN оставались доминирующим типом генеративных моделей. Но затем на сцену вышли диффузионные модели, которые обучались на специфических доменах и работали с более сложными данными: ![]() В отличие от GAN, они не сталкиваются с проблемой коллапса, когда размер пространства изображений становится слишком большим. С этого момента начался новый этап развития GenAI. Появились модели класса text-to-image, позволяющие генерировать картинки по текстовому описанию. До 2020-х такие подходы не работали или были крайне ограничены. В 2022 году OpenAI выпустила DALL-E 2: ![]() Затем этот подход применили и улучшили в рамках Stable Diffusion и других подобных решений: ![]() В 2024 году развитие GenAI продолжилось и вышло за рамки работы исключительно с изображениями: ![]() Появились модели, способные создавать целые видеосюжеты. Это был огромный технологический шаг вперед. В числе заметных разработок стоит упомянуть Flux, показавшую впечатляющее качество контента: ![]() В 2025 году развитие генеративных моделей продолжается и даже набирает темпы. Появилась GPT-4o, которая демонстрирует высокое качество, особенно при создании текстов. Кроме того, Google представил Veo 3 — ролики теперь делаются сразу со звуковым сопровождением. Одновременно генерируются видеоряд, голоса и звуки, необходимые для сцены. Предположу, что с нынешними темпами исследований и появления новых архитектур рост возможностей в ближайшем будущем продолжится. Доминирующие типы генеративных моделей ![]() Практически все современные решения, о которых я говорил выше, строятся либо на диффузионном, либо на авторегрессионном подходе. Давайте разберём, что они из себя представляют и как работают. Диффузионные модели ![]() Одна из ключевых идей обучения генерации — ввод процесса постепенного разрушения исходных данных. После него модель запускает обратный процесс — восстановление. Таким образом она учится создавать новое из случайного шума. ![]() Чтобы восстанавливать исходные данные, вводятся условные вероятности, которые пошагово «вычищают» шум и выявляют в нем скрытый сигнал. Используя его, модель генерирует новый объект, похожий на оригинал. Процесс разрушения задается достаточно просто: постепенно добавляем шум к исходным данным или ослабляем в них сигнал, в итоге получая полностью зашумленный объект. ![]() Все это записывается в математический фреймворк и выводит функцию потерь, которую нужно оптимизировать для обучения нейронной сети. ![]() Если на каждом шаге удается точно оценить и удалить добавленный шум, то можно постепенно восстановить исходный объект и в итоге получить качественное изображение. ![]() Эту идею впоследствии расширили для генерации картинок по тексту, семантических масок и других данных. Суть подхода в том, что пользователь задает текстовый запрос, а модель начинает с изображения, представляющего собой шум. Затем она постепенно убирает его, опираясь на текстовое описание, и в итоге формирует результат, соответствующий запросу. Авторегрессионные модели ![]() Изначально их использовали в задачах создания текстов. Практически все известные языковые модели, такие как ChatGPT, построены на авторегрессии. Ее суть в том, что при генерации нового объекта его элементы создаются последовательно. Каждый следующий зависит от всех предыдущих. Это можно представить в виде вероятностной модели, где общая вероятность разлагается на цепочку условных. В случае текстов это означает, что каждое следующее слово зависит от сгенерированных до него. Так и формируется весь текст. ![]() Чтобы обучить такую модель, используют задачу предсказания (loss-генерации) следующего токена. Для этого берут большие корпуса текстов, и модель учат по ним предсказывать слово на основе всех предыдущих. ![]() Хотя авторегрессионные модели обычно применяют для работы с текстами, их можно использовать и для изображений. Для этого его представляют последовательностью пикселей и генерируют каждый по очереди: ![]() На практике можно объединить генерацию текста и картинок в одной модели, которая будет, например, отвечать на вопросы о сгенерированных изображениях. Для этого токены текста и изображений переводят в общее пространство. Чтобы обучить такую модель, потребуется большой набор данных, содержащий как картинки, так и связанные с ними текстовые описания. Текущий ландшафт генеративных моделей Диффузионные и авторегрессионные модели различаются принципиально:
Основные задачи генеративных моделей Редактирование изображений Предположим, у нас есть исходная картинка, и мы хотим изменить ее характеристики по текстовому запросу. Например, добавить новые объекты или исправить погоду: ![]() При диффузионном подходе проще контролировать генерацию. Здесь хорошо показала себя схема, когда в модель добавляют дополнительный вход, куда подают исходное изображение: ![]() Такой подход используется уже на этапе обучения, чтобы модели учились не просто создавать новые картинки, но и менять существующие. Авторегрессионные подходы, такие как в ChatGPT-4o, тоже позволяют редактировать изображения: ![]() Однако тут есть недостаток: могут поменяться и другие части картинки. В приведенном примере изменились фон и расцветка кошки. Их плюс — это удобство взаимодействия через текстовые инструкции, легкость правок и уточнений. Для редактирования видео подойдут диффузионные подходы. Они позволяют уже сейчас менять фон, объекты, облик человека или стиль ролика. Персонализированная генерация Она заключается в создании определенных заранее концептов или персонажей. Например, нам нужна серия картинок про пингвина в VR-шлеме. Для диффузионной модели мы отправляем запрос на создание сцены с ним в новой обстановке или с другого ракурса: ![]() С помощью авторегрессионных моделей мы можем взять уже созданного персонажа и попросить сгенерировать его в новом контексте: ![]() В итоге современные модели уже делают ролики, похожие на реальные съемки. Контролируемая генерация В этом случае мы создаем изображение объекта с заранее заданной геометрией, например, по контурному скетчу: ![]() Такая задача решается с помощью диффузионного подхода: ![]() А вот авторегрессионные модели для этого использовать пока не получается. В диффузионных мы можем подавать геометрическую структуру, например позу или контур на вход модели, и она будет сохраняться в процессе генерации. Для генерации видео применяются те же принципы. Мы берем ролик, извлекаем из него геометрию и по ней создаем новое видео. Например, нам нужна статуя, которая повторит структуру из исходного ролика: ![]() По сравнению с 2023 годом качество заметно выросло и сегодня позволяет применять диффузионные модели в различных задачах и сценариях. Что нужно понимать о современных генеративных моделях Последние 10 лет они развивались очень быстро, и этот процесс продолжается. Сейчас новые модели появляются с интервалом в несколько месяцев, и каждое поколение показывает все лучшее качество. Еще 10 лет назад такой рост шел гораздо медленнее.
Сейчас в GenAI доминируют диффузионные и авторегрессионные модели. Они активно конкурируют, и пока нельзя однозначно сказать, какой из этих типов в итоге станет основным. Появляются также решения, которые совмещают оба подхода, объединяя их сильные стороны. У генеративных моделей много вариантов применения. Например, для создания рекламных материалов, изображений товаров в разных сценах или для стилизации картинок. Чаще в таких задачах используют диффузионные модели: ими проще управлять, и они работают более эффективно. Однако я предположу, что с современными темпами авторегрессионные модели их нагонят. А может, появится что-то новое — тут уже покажет время. Источник: habr.com Комментарии: |
|