Обзор на генерацию изображений посредством нейросетей

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Играюсь с нейросетями примерно год, успел пощупать замену голоса, дипфейки, генераторы озвучки, подробнее остановился на генерации изображений, так как программировать не умею, а качать ноды (узлы, выполняющие узконаправленную функцию), модели к ним и создавать воркфлоу (совокупность соединённых "нод" для решения конкретной задачи) до сих пор не надоело.

Работаю я со Stable Diffusion XL в интерфейсе ComfyUI, я не приемлю платные варианты, потому как:

- я хочу иметь полный контроль над генерацией

- я не хочу, чтобы в полёте фантазии меня ограничивала цензура проприетарных ресурсов

- я не хочу платить деньги капиталистам, и вообще, когда-нибудь наступит тот день, когда все компьютеры будут на Linux, а свободный код захватит мир.

Есть ещё интерфейс Automatic1111, но мне было лень с ним разбираться, да и в сравнении с ComfyUI он мало что поддерживает и медленнее работает.

Если вы посмотрите на прикреплённое фото, вы увидите много рамочек разного цвета.

Бордовый - изображения на вход, результат работы промежуточных нод, результат генерации.

Серый - ноды, отвечающие за подгрузку модели (набор "исходников", если грубо), интерпретатора промптов (переводит слова в машинный код), VAE (автокодировщик, дорабатывает изображение из шума латентного пространства) и латентного пространства (очень объёмный термин, в нашем случае - это некий участок, в пределах которого с каждым "шагом" генерации пиксели принимают заданную сэмплером в рамках промпта форму).

Зелёный - окна промптов и сэмплера (там ещё девять нод посередине, они относятся к синей группе).

Вот это - обязательные элементы любого воркфлоу, без которых вы изображение не получите.

Синий - кастомные ноды, отвечающие за подачу в сэмплер дополнительной информации, их тьма тьмущая.

Фиолетовый - выключенные ноды.

Жёлтый - постобработка готового изображения, типа фиксит лица от косяков, может редактировать выражение лица.

1) Простота освоения - 3/10.

Вам придётся подружиться с командной строкой и различными ресурсами по типу GitHub, HuggingFace, Civitai, чтобы банально иметь возможность поставить интерфейс и требования для его работы себе на комп. Отдельная свистопляска - когда в процессе установки разные компоненты требуют разные версии библиотек и программ - чтобы с этим ладить, нужно дополнительно познакомиться с виртуальными средами и Docker'ом. Большой плюс, если вы работали с терминалом. Познания в инглише приветствуются, так как вы гарантированно будете искать ошибки в командной строке и пытаться их исправить, читая багрепорты индусов по вашей проблеме. Большинство гайдов тоже на английском.

Отдельная тема - постобработка изображений. Руки-клешни с лишними пальцами, кривые заборы, скамейки, искажения от латентного пространства - всё это и многое другое вам нужно править в графических редакторах. Треба умение работать со слоями как минимум. Мне с головой хватает базового GIMP'а.

2) Процесс работы - 8/10.

Это хобби даёт ощущение могущества. В принципе, если вы видели рекламу про "нарисуем твою жену на холсте" - это оно и есть, только вы можете бонусом прибавить человеку три десятка килограмм, сменить расу, возраст, пол, сделать фурри и выполнить это в стиле аниме-фигурки на фоне красивого горного пейзажа. На вход можно подать стиль работ художника и нагенерировать контента в его стиле (всем "честным" художникам пламенный привет). Вы можете редактировать исходные фото, есть ноды под удаление объектов, под сегментирование по каким-либо признакам и формирование маски (полезно для "примерки" одежды, тут хлеб отбирается уже у моделей), под рисование карты глубины и так далее - вы ничем не ограничены. Вы вольны генерировать в том числе и 18+ контент, после чего вы, вероятно, захотите удалить свои фото со всех ресурсов.

Реально, здесь можно залипать часами.

3) Системные требования - 2/10.

Это всё требует приличных мощностей для локального запуска. Моя ноутбучная 3070 на 8gb неплохо тянет генерацию изображений на SDXL и с несколькими кастомными нодами, но Flux уже под завязку забивает видеопамять, и генерация идёт очень медленно. Генерация видео - вообще ахтунг, даже на моей системе ComfyUI сыпет ошибками по видеопамяти. Есть варианты настройки через Google Colab, но как по мне, это не очень удобно.

4) Реакция общественности - 6/10

В ваших руках мощнейший инструмент для создания мемов. Людям важно дать понять, что вы способны только на это. Насчёт остального распространяться себе дороже, в лучшем случае вас доканают с просьбами, в худшем - перестанут с вами общаться.

Однако мемы лайкаются на ура, особенно когда они сделаны качественно.

Вообще, когда я ищу себе натренированные модели, я то и дело натыкаюсь на модели с NSFW, обнажёнными потными ногами, аниме и фурри-проном, вот они пользуются популярностью. Так что для многих людей это всё - способ удовлетворить свои фетиши, и это замечательно, на самом деле.

Никто из нас не святой.

Помимо этого есть много материала для графических дизайнеров, это вторая большая целевая аудитория Stable Diffusion. Есть инструменты и для создания цифровых инфлюенсеров.

Это всё очень глубоко проникло в наш мир, и нам теперь с этим жить, хотите вы этого или нет.

6) Собственные ощущения - 8/10.

Это как изучать какой-нибудь Некрономикон. Сначала ты ничего не понимаешь, потом, с ростом навыка написания промптов и работы с интерфейсом, тебе становится страшно, и ты зарекаешься не пересекать грань. Но с каждой новой генерацией грань размывается, и без наблюдения со стороны сложно понять, как далеко ты зашёл. Но первые ощущения незабываемы. Есть в этом что-то таинственное, запретное, даже греховное. Чувствуешь себя адептом того самого пластмассового мира, который победил.

5) Рыгучесть - 7/10.

Когда я в первый раз увидел раздвоенные конечности с торчащими во все стороны пальцами аки веер - захотелось смачно так рыгнуть. Потом, конечно, привыкаешь.


Источник: vk.com

Комментарии: