![]() |
![]() |
![]() |
|||||
![]() |
Вчера OpenAI добавила в нейросеть GPT-4o возможность нативной генерации изображений, а пару недель назад аналогичную нейросеть выпустил Google |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-03-29 12:21 ![]() Вчера OpenAI добавила в нейросеть GPT-4o возможность нативной генерации изображений, а пару недель назад аналогичную нейросеть выпустил Google. Рассказываем, чем они отличаются от обычных генераторов изображений. Как работают обычные генераторы изображений Для примера можно взять DALL-E в ChatGPT и Imagen в Gemini, которые умеют создавать картинки прямо в чате. Вот как происходит генерация: Вы переписываетесь с языковой моделью Когда вы просите создать изображение, она вызывает отдельную диффузионную модель (например, DALL-E или Imagen) Диффузионная модель генерирует изображение и возвращает его в чат Если хотите внести изменения, необходимо сформулировать новый запрос, а новая генерация будет сделана с нуля Это как позвонить другу-писателю, который по вашей просьбе перенаправит ваш запрос другу-художнику, а затем вернёт результат. Как работают омнимодальные нейросети Gemini 2.0 Flash и новая версия GPT-4o — омнимодальные нейросети. Это значит, что одна и та же модель умеет понимать и создавать информацию в разных форматах — текстовом и визуальном. GPT-4o также умеет генерировать аудио — на этой возможности основан голосовой режим ChatGPT. Изображения в омнимодальных нейросетях представляются в виде специальных токенов — так же, как модель работает с текстовыми токенами. Генерируются изображения также в виде токенов, которые затем один за другим переводятся в пиксели. Точно неизвестно, как работает генерация в Gemini 2.0 Flash, но можно заметить, что GPT-4o во время генерации создаёт изображение построчно — примерно так, как грузились картинки в интернете во времена интернета по Dial-up. В чём преимущество? Глубокое понимание. Поскольку это одна модель, она гораздо лучше понимает весь контекст диалога, включая предыдущие сообщения и загруженные изображения. А ещё использует свои знания о мире и способности к рассуждению при создании картинок. Например, GPT-4o умеет генерировать комиксы из нескольких кадров или инфографику даже по промту из нескольких слов — модель сама придумывает, что должно быть изображено, включая текст. Редактирование и трансформация. Например, можно попросить модель поменять ночь на день, и она сделает это, сохраняя общую композицию и детали. За счёт того, что в основе таких моделей лежат более «умные и разносторонние» нейросети, их можно просить делать и более сложные манипуляции. К примеру, показать фото автомобиля с обведённой ручкой и попросить открыть её — модель поймёт запрос и вернёт фотографию той же машины с открытой дверью. Итеративность. Картинку можно дорабатывать в диалоге, меняя конкретные детали и свойства, но сохраняя, например, внешний вид персонажа. Это лучшие генераторы изображений? Если сравнивать с ведущими генераторами изображений, такими как Reve и Recraft, GPT-4o и особенно Gemini 2.0 Flash отстают по качеству генерации, следованию деталям из промта и другим важным параметрам. А при редактировании обе нейросети не идеально сохраняют исходные детали на всей картинке. Gemini 2.0 Flash справляется с этим лучше GPT-4o, особенно в лицах, но всё же слегка меняет даже те фрагменты, которые пользователь не просил редактировать. Это происходит потому, что во время преобразования из картинки в токены и обратно часть информации теряется. Где попробовать эти нейросети? Доступ к GPT-4o с нативной генерацией картинок открывается постепенно. В первую очередь его получили платные подписчики ChatGPT, но OpenAI обещает открыть доступ всем. Gemini 2.0 Flash с возможностью генерации изображений доступна в Google AI Studio и по API. Источник: vk.com Комментарии: |
||||||