Нейронка в 100кб которая выдаёт результаты получше других |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-08-07 13:01 Новый метод персонализации изображений Perfusion, разработанный компанией Nvidia, занимает 100 КБ места, а для воспроизведения концепции требуется всего 4 минуты обучения. В стремительно развивающемся ландшафте инструментов искусственного интеллекта для создания произведений искусства исследователи компании Nvidia представили новый инновационный метод персонализации текста в изображение под названием Perfusion. Но это не супертяжеловес за миллион долларов, как у конкурентов. Имея размер всего 100 КБ и время обучения 4 минуты, Perfusion обеспечивает значительную творческую гибкость при изображении персонализированных концепций с сохранением их идентичности. Perfusion была представлена в исследовательской работе, созданной компанией Nvidia и Тель-Авивским университетом в Израиле. Несмотря на малый размер, по эффективности подстройки она превосходит методы, используемые ведущими генераторами искусственного интеллекта, такими как Stability AI's Stable Diffusion v1.5, недавно выпущенный Stable Diffusion XL (SDXL) и MidJourney. Главная новая идея в Perfusion называется "Key-Locking". Она работает путем соединения новых понятий, которые пользователь хочет добавить, например, конкретной кошки или стула, с более общей категорией во время генерации изображения. Например, кошка будет связана с более общим понятием "кошка". Это помогает избежать чрезмерной подгонки, когда модель слишком узко настраивается на конкретные обучающие примеры. В этом случае ИИ становится трудно генерировать новые творческие версии концепции. Эра искусства, создаваемого искусственным интеллектом, уже наступила, и три титана стали любимыми инструментами создателей цифровых произведений: Новый SDXL от Stability AI, старый добрый Stable Diffusion v1.5 и их главный конкурент: MidJourney. Революцию начал Dall-E от OpenAI, но его недостаточное развитие и закрытый исходный код не позволяют Dall-E 2 выделиться на фоне конкурентов. Однако, как уже сообщал Decrypt несколько дней назад, в будущем ситуация может измениться, поскольку openAI тестирует новую версию. Но вернёмся к микронейронке, привязав новую кошку к общему представлению о кошачьих, модель может изображать ее в самых разных позах, обликах и окружении. Но при этом сохраняется та самая "кошачесть", которая делает ее похожей именно на ту кошку, которая была задумана, а не на какую-то случайную. Проще говоря, Key-Locking позволяет ИИ гибко изображать персонализированные концепции, сохраняя их основную идентичность. Это все равно что дать художнику следующие указания: "Нарисуйте моего кота Тома, который спит, играет с пряжей и нюхает цветы". Почему Nvidia считает, что меньше - значит больше Perfusion также позволяет объединить несколько персонализированных концепций в одном изображении с помощью естественных взаимодействий, в отличие от существующих инструментов, которые изучают концепции по отдельности. Пользователи могут направлять процесс создания изображения с помощью текстовых подсказок, объединяя такие понятия, как конкретная кошка и стул. Perfusion предлагает замечательную функцию, позволяющую пользователям контролировать баланс между визуальной достоверностью (изображение) и текстовым согласованием (подсказка) в процессе вывода путем настройки одной модели размером 100 КБ. Эта возможность позволяет пользователям легко исследовать фронт Парето (сходство текста и сходство изображения) и выбрать оптимальный компромисс, соответствующий их конкретным потребностям, без необходимости переобучения. Важно отметить, что обучение модели требует определенной тонкости. Слишком большое внимание к воспроизведению модели приводит к тому, что она снова и снова выдает один и тот же результат, а слишком точное следование подсказке без какой-либо свободы обычно приводит к плохому результату. Гибкая настройка того, насколько близко генератор подходит к подсказке, является важным элементом настройки. В других генераторах изображений ИИ есть возможность тонкой настройки вывода, но они громоздки. В качестве примера можно привести LoRA - популярный метод тонкой настройки, используемый в Stable Diffusion. Он может добавить к приложению от десятков мегабайт до более чем одного гигабайта (ГБ). Другой метод - инверсионные вкрапления текста - более легкий, но менее точный. Модель, обученная с помощью Dreambooth, наиболее точной на данный момент, весит более 2 ГБ. Для сравнения, Nvidia утверждает, что Perfusion обеспечивает более высокое визуальное качество и соответствие подсказкам по сравнению с ведущими технологиями ИИ, о которых говорилось выше. Сверхэкономичный размер позволяет обновлять только те части, которые необходимы для точной настройки процесса создания изображения, по сравнению с методами, занимающими много гигабайт, которые настраивают всю модель. Источник: decrypt.co Комментарии: |
|