Нейронка в 100кб которая выдаёт результаты получше других

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Новый метод персонализации изображений Perfusion, разработанный компанией Nvidia, занимает 100 КБ места, а для воспроизведения концепции требуется всего 4 минуты обучения.

В стремительно развивающемся ландшафте инструментов искусственного интеллекта для создания произведений искусства исследователи компании Nvidia представили новый инновационный метод персонализации текста в изображение под названием Perfusion.

Но это не супертяжеловес за миллион долларов, как у конкурентов. Имея размер всего 100 КБ и время обучения 4 минуты, Perfusion обеспечивает значительную творческую гибкость при изображении персонализированных концепций с сохранением их идентичности.

Perfusion была представлена в исследовательской работе, созданной компанией Nvidia и Тель-Авивским университетом в Израиле. Несмотря на малый размер, по эффективности подстройки она превосходит методы, используемые ведущими генераторами искусственного интеллекта, такими как Stability AI's Stable Diffusion v1.5, недавно выпущенный Stable Diffusion XL (SDXL) и MidJourney.

Главная новая идея в Perfusion называется "Key-Locking". Она работает путем соединения новых понятий, которые пользователь хочет добавить, например, конкретной кошки или стула, с более общей категорией во время генерации изображения. Например, кошка будет связана с более общим понятием "кошка".

Это помогает избежать чрезмерной подгонки, когда модель слишком узко настраивается на конкретные обучающие примеры. В этом случае ИИ становится трудно генерировать новые творческие версии концепции.

Эра искусства, создаваемого искусственным интеллектом, уже наступила, и три титана стали любимыми инструментами создателей цифровых произведений: Новый SDXL от Stability AI, старый добрый Stable Diffusion v1.5 и их главный конкурент: MidJourney.

Революцию начал Dall-E от OpenAI, но его недостаточное развитие и закрытый исходный код не позволяют Dall-E 2 выделиться на фоне конкурентов. Однако, как уже сообщал Decrypt несколько дней назад, в будущем ситуация может измениться, поскольку openAI тестирует новую версию.

Но вернёмся к микронейронке, привязав новую кошку к общему представлению о кошачьих, модель может изображать ее в самых разных позах, обликах и окружении. Но при этом сохраняется та самая "кошачесть", которая делает ее похожей именно на ту кошку, которая была задумана, а не на какую-то случайную.

Проще говоря, Key-Locking позволяет ИИ гибко изображать персонализированные концепции, сохраняя их основную идентичность. Это все равно что дать художнику следующие указания: "Нарисуйте моего кота Тома, который спит, играет с пряжей и нюхает цветы".

Почему Nvidia считает, что меньше - значит больше

Perfusion также позволяет объединить несколько персонализированных концепций в одном изображении с помощью естественных взаимодействий, в отличие от существующих инструментов, которые изучают концепции по отдельности. Пользователи могут направлять процесс создания изображения с помощью текстовых подсказок, объединяя такие понятия, как конкретная кошка и стул.

Perfusion предлагает замечательную функцию, позволяющую пользователям контролировать баланс между визуальной достоверностью (изображение) и текстовым согласованием (подсказка) в процессе вывода путем настройки одной модели размером 100 КБ. Эта возможность позволяет пользователям легко исследовать фронт Парето (сходство текста и сходство изображения) и выбрать оптимальный компромисс, соответствующий их конкретным потребностям, без необходимости переобучения. Важно отметить, что обучение модели требует определенной тонкости.

Слишком большое внимание к воспроизведению модели приводит к тому, что она снова и снова выдает один и тот же результат, а слишком точное следование подсказке без какой-либо свободы обычно приводит к плохому результату. Гибкая настройка того, насколько близко генератор подходит к подсказке, является важным элементом настройки.

В других генераторах изображений ИИ есть возможность тонкой настройки вывода, но они громоздки. В качестве примера можно привести LoRA - популярный метод тонкой настройки, используемый в Stable Diffusion.

Он может добавить к приложению от десятков мегабайт до более чем одного гигабайта (ГБ). Другой метод - инверсионные вкрапления текста - более легкий, но менее точный. Модель, обученная с помощью Dreambooth, наиболее точной на данный момент, весит более 2 ГБ.

Для сравнения, Nvidia утверждает, что Perfusion обеспечивает более высокое визуальное качество и соответствие подсказкам по сравнению с ведущими технологиями ИИ, о которых говорилось выше.

Сверхэкономичный размер позволяет обновлять только те части, которые необходимы для точной настройки процесса создания изображения, по сравнению с методами, занимающими много гигабайт, которые настраивают всю модель.


Источник: decrypt.co

Комментарии: