Нейронка в 100кб которая выдаёт результаты получше других

2023-08-07 13:01

Новый метод персонализации изображений Perfusion, разработанный компанией Nvidia, занимает 100 КБ места, а для воспроизведения концепции требуется всего 4 минуты обучения.

В стремительно развивающемся ландшафте инструментов искусственного интеллекта для создания произведений искусства исследователи компании Nvidia представили новый инновационный метод персонализации текста в изображение под названием Perfusion.

Но это не супертяжеловес за миллион долларов, как у конкурентов. Имея размер всего 100 КБ и время обучения 4 минуты, Perfusion обеспечивает значительную творческую гибкость при изображении персонализированных концепций с сохранением их идентичности.

Perfusion была представлена в исследовательской работе, созданной компанией Nvidia и Тель-Авивским университетом в Израиле. Несмотря на малый размер, по эффективности подстройки она превосходит методы, используемые ведущими генераторами искусственного интеллекта, такими как Stability AI's Stable Diffusion v1.5, недавно выпущенный Stable Diffusion XL (SDXL) и MidJourney.

Главная новая идея в Perfusion называется "Key-Locking". Она работает путем соединения новых понятий, которые пользователь хочет добавить, например, конкретной кошки или стула, с более общей категорией во время генерации изображения. Например, кошка будет связана с более общим понятием "кошка".

Это помогает избежать чрезмерной подгонки, когда модель слишком узко настраивается на конкретные обучающие примеры. В этом случае ИИ становится трудно генерировать новые творческие версии концепции.

Эра искусства, создаваемого искусственным интеллектом, уже наступила, и три титана стали любимыми инструментами создателей цифровых произведений: Новый SDXL от Stability AI, старый добрый Stable Diffusion v1.5 и их главный конкурент: MidJourney.

Революцию начал Dall-E от OpenAI, но его недостаточное развитие и закрытый исходный код не позволяют Dall-E 2 выделиться на фоне конкурентов. Однако, как уже сообщал Decrypt несколько дней назад, в будущем ситуация может измениться, поскольку openAI тестирует новую версию.

Но вернёмся к микронейронке, привязав новую кошку к общему представлению о кошачьих, модель может изображать ее в самых разных позах, обликах и окружении. Но при этом сохраняется та самая "кошачесть", которая делает ее похожей именно на ту кошку, которая была задумана, а не на какую-то случайную.

Проще говоря, Key-Locking позволяет ИИ гибко изображать персонализированные концепции, сохраняя их основную идентичность. Это все равно что дать художнику следующие указания: "Нарисуйте моего кота Тома, который спит, играет с пряжей и нюхает цветы".

Почему Nvidia считает, что меньше - значит больше

Perfusion также позволяет объединить несколько персонализированных концепций в одном изображении с помощью естественных взаимодействий, в отличие от существующих инструментов, которые изучают концепции по отдельности. Пользователи могут направлять процесс создания изображения с помощью текстовых подсказок, объединяя такие понятия, как конкретная кошка и стул.

Perfusion предлагает замечательную функцию, позволяющую пользователям контролировать баланс между визуальной достоверностью (изображение) и текстовым согласованием (подсказка) в процессе вывода путем настройки одной модели размером 100 КБ. Эта возможность позволяет пользователям легко исследовать фронт Парето (сходство текста и сходство изображения) и выбрать оптимальный компромисс, соответствующий их конкретным потребностям, без необходимости переобучения. Важно отметить, что обучение модели требует определенной тонкости.

Слишком большое внимание к воспроизведению модели приводит к тому, что она снова и снова выдает один и тот же результат, а слишком точное следование подсказке без какой-либо свободы обычно приводит к плохому результату. Гибкая настройка того, насколько близко генератор подходит к подсказке, является важным элементом настройки.

В других генераторах изображений ИИ есть возможность тонкой настройки вывода, но они громоздки. В качестве примера можно привести LoRA - популярный метод тонкой настройки, используемый в Stable Diffusion.

Он может добавить к приложению от десятков мегабайт до более чем одного гигабайта (ГБ). Другой метод - инверсионные вкрапления текста - более легкий, но менее точный. Модель, обученная с помощью Dreambooth, наиболее точной на данный момент, весит более 2 ГБ.

Для сравнения, Nvidia утверждает, что Perfusion обеспечивает более высокое визуальное качество и соответствие подсказкам по сравнению с ведущими технологиями ИИ, о которых говорилось выше.

Сверхэкономичный размер позволяет обновлять только те части, которые необходимы для точной настройки процесса создания изображения, по сравнению с методами, занимающими много гигабайт, которые настраивают всю модель.

Источник: decrypt.co



		Нейронка в 100кб которая выдаёт результаты получше других
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2023-08-07 13:01 ИИ проекты, реализация нейронной сети Новый метод персонализации изображений Perfusion, разработанный компанией Nvidia, занимает 100 КБ места, а для воспроизведения концепции требуется всего 4 минуты обучения. В стремительно развивающемся ландшафте инструментов искусственного интеллекта для создания произведений искусства исследователи компании Nvidia представили новый инновационный метод персонализации текста в изображение под названием Perfusion. Но это не супертяжеловес за миллион долларов, как у конкурентов. Имея размер всего 100 КБ и время обучения 4 минуты, Perfusion обеспечивает значительную творческую гибкость при изображении персонализированных концепций с сохранением их идентичности. Perfusion была представлена в исследовательской работе, созданной компанией Nvidia и Тель-Авивским университетом в Израиле. Несмотря на малый размер, по эффективности подстройки она превосходит методы, используемые ведущими генераторами искусственного интеллекта, такими как Stability AI's Stable Diffusion v1.5, недавно выпущенный Stable Diffusion XL (SDXL) и MidJourney. Главная новая идея в Perfusion называется "Key-Locking". Она работает путем соединения новых понятий, которые пользователь хочет добавить, например, конкретной кошки или стула, с более общей категорией во время генерации изображения. Например, кошка будет связана с более общим понятием "кошка". Это помогает избежать чрезмерной подгонки, когда модель слишком узко настраивается на конкретные обучающие примеры. В этом случае ИИ становится трудно генерировать новые творческие версии концепции. Эра искусства, создаваемого искусственным интеллектом, уже наступила, и три титана стали любимыми инструментами создателей цифровых произведений: Новый SDXL от Stability AI, старый добрый Stable Diffusion v1.5 и их главный конкурент: MidJourney. Революцию начал Dall-E от OpenAI, но его недостаточное развитие и закрытый исходный код не позволяют Dall-E 2 выделиться на фоне конкурентов. Однако, как уже сообщал Decrypt несколько дней назад, в будущем ситуация может измениться, поскольку openAI тестирует новую версию. Но вернёмся к микронейронке, привязав новую кошку к общему представлению о кошачьих, модель может изображать ее в самых разных позах, обликах и окружении. Но при этом сохраняется та самая "кошачесть", которая делает ее похожей именно на ту кошку, которая была задумана, а не на какую-то случайную. Проще говоря, Key-Locking позволяет ИИ гибко изображать персонализированные концепции, сохраняя их основную идентичность. Это все равно что дать художнику следующие указания: "Нарисуйте моего кота Тома, который спит, играет с пряжей и нюхает цветы". Почему Nvidia считает, что меньше - значит больше Perfusion также позволяет объединить несколько персонализированных концепций в одном изображении с помощью естественных взаимодействий, в отличие от существующих инструментов, которые изучают концепции по отдельности. Пользователи могут направлять процесс создания изображения с помощью текстовых подсказок, объединяя такие понятия, как конкретная кошка и стул. Perfusion предлагает замечательную функцию, позволяющую пользователям контролировать баланс между визуальной достоверностью (изображение) и текстовым согласованием (подсказка) в процессе вывода путем настройки одной модели размером 100 КБ. Эта возможность позволяет пользователям легко исследовать фронт Парето (сходство текста и сходство изображения) и выбрать оптимальный компромисс, соответствующий их конкретным потребностям, без необходимости переобучения. Важно отметить, что обучение модели требует определенной тонкости. Слишком большое внимание к воспроизведению модели приводит к тому, что она снова и снова выдает один и тот же результат, а слишком точное следование подсказке без какой-либо свободы обычно приводит к плохому результату. Гибкая настройка того, насколько близко генератор подходит к подсказке, является важным элементом настройки. В других генераторах изображений ИИ есть возможность тонкой настройки вывода, но они громоздки. В качестве примера можно привести LoRA - популярный метод тонкой настройки, используемый в Stable Diffusion. Он может добавить к приложению от десятков мегабайт до более чем одного гигабайта (ГБ). Другой метод - инверсионные вкрапления текста - более легкий, но менее точный. Модель, обученная с помощью Dreambooth, наиболее точной на данный момент, весит более 2 ГБ. Для сравнения, Nvidia утверждает, что Perfusion обеспечивает более высокое визуальное качество и соответствие подсказкам по сравнению с ведущими технологиями ИИ, о которых говорилось выше. Сверхэкономичный размер позволяет обновлять только те части, которые необходимы для точной настройки процесса создания изображения, по сравнению с методами, занимающими много гигабайт, которые настраивают всю модель. Источник: decrypt.co Комментарии:

Нейронка в 100кб которая выдаёт результаты получше других

Комментарии: