Вчера OpenAI добавила в нейросеть GPT-4o возможность нативной генерации изображений, а пару недель назад аналогичную нейросеть выпустил Google

2025-03-29 12:21

Вчера OpenAI добавила в нейросеть GPT-4o возможность нативной генерации изображений, а пару недель назад аналогичную нейросеть выпустил Google. Рассказываем, чем они отличаются от обычных генераторов изображений.

Как работают обычные генераторы изображений

Для примера можно взять DALL-E в ChatGPT и Imagen в Gemini, которые умеют создавать картинки прямо в чате. Вот как происходит генерация:

Вы переписываетесь с языковой моделью

Когда вы просите создать изображение, она вызывает отдельную диффузионную модель (например, DALL-E или Imagen)

Диффузионная модель генерирует изображение и возвращает его в чат

Если хотите внести изменения, необходимо сформулировать новый запрос, а новая генерация будет сделана с нуля

Это как позвонить другу-писателю, который по вашей просьбе перенаправит ваш запрос другу-художнику, а затем вернёт результат.

Как работают омнимодальные нейросети

Gemini 2.0 Flash и новая версия GPT-4o — омнимодальные нейросети. Это значит, что одна и та же модель умеет понимать и создавать информацию в разных форматах — текстовом и визуальном. GPT-4o также умеет генерировать аудио — на этой возможности основан голосовой режим ChatGPT.

Изображения в омнимодальных нейросетях представляются в виде специальных токенов — так же, как модель работает с текстовыми токенами. Генерируются изображения также в виде токенов, которые затем один за другим переводятся в пиксели. Точно неизвестно, как работает генерация в Gemini 2.0 Flash, но можно заметить, что GPT-4o во время генерации создаёт изображение построчно — примерно так, как грузились картинки в интернете во времена интернета по Dial-up.

В чём преимущество?

Глубокое понимание. Поскольку это одна модель, она гораздо лучше понимает весь контекст диалога, включая предыдущие сообщения и загруженные изображения. А ещё использует свои знания о мире и способности к рассуждению при создании картинок. Например, GPT-4o умеет генерировать комиксы из нескольких кадров или инфографику даже по промту из нескольких слов — модель сама придумывает, что должно быть изображено, включая текст.

Редактирование и трансформация. Например, можно попросить модель поменять ночь на день, и она сделает это, сохраняя общую композицию и детали. За счёт того, что в основе таких моделей лежат более «умные и разносторонние» нейросети, их можно просить делать и более сложные манипуляции. К примеру, показать фото автомобиля с обведённой ручкой и попросить открыть её — модель поймёт запрос и вернёт фотографию той же машины с открытой дверью.

Итеративность. Картинку можно дорабатывать в диалоге, меняя конкретные детали и свойства, но сохраняя, например, внешний вид персонажа.

Это лучшие генераторы изображений?

Если сравнивать с ведущими генераторами изображений, такими как Reve и Recraft, GPT-4o и особенно Gemini 2.0 Flash отстают по качеству генерации, следованию деталям из промта и другим важным параметрам.

А при редактировании обе нейросети не идеально сохраняют исходные детали на всей картинке. Gemini 2.0 Flash справляется с этим лучше GPT-4o, особенно в лицах, но всё же слегка меняет даже те фрагменты, которые пользователь не просил редактировать. Это происходит потому, что во время преобразования из картинки в токены и обратно часть информации теряется.

Где попробовать эти нейросети?

Доступ к GPT-4o с нативной генерацией картинок открывается постепенно. В первую очередь его получили платные подписчики ChatGPT, но OpenAI обещает открыть доступ всем.

Gemini 2.0 Flash с возможностью генерации изображений доступна в Google AI Studio и по API.

Источник: vk.com

Вчера OpenAI добавила в нейросеть GPT-4o возможность нативной генерации изображений, а пару недель назад аналогичную нейросеть выпустил Google

Комментарии: