Обзор на генерацию изображений посредством нейросетей

2025-05-25 11:16

алгоритмы машинного обучения, реализация нейронной сети

Играюсь с нейросетями примерно год, успел пощупать замену голоса, дипфейки, генераторы озвучки, подробнее остановился на генерации изображений, так как программировать не умею, а качать ноды (узлы, выполняющие узконаправленную функцию), модели к ним и создавать воркфлоу (совокупность соединённых "нод" для решения конкретной задачи) до сих пор не надоело.

Работаю я со Stable Diffusion XL в интерфейсе ComfyUI, я не приемлю платные варианты, потому как:

- я хочу иметь полный контроль над генерацией

- я не хочу, чтобы в полёте фантазии меня ограничивала цензура проприетарных ресурсов

- я не хочу платить деньги капиталистам, и вообще, когда-нибудь наступит тот день, когда все компьютеры будут на Linux, а свободный код захватит мир.

Есть ещё интерфейс Automatic1111, но мне было лень с ним разбираться, да и в сравнении с ComfyUI он мало что поддерживает и медленнее работает.

Если вы посмотрите на прикреплённое фото, вы увидите много рамочек разного цвета.

Бордовый - изображения на вход, результат работы промежуточных нод, результат генерации.

Серый - ноды, отвечающие за подгрузку модели (набор "исходников", если грубо), интерпретатора промптов (переводит слова в машинный код), VAE (автокодировщик, дорабатывает изображение из шума латентного пространства) и латентного пространства (очень объёмный термин, в нашем случае - это некий участок, в пределах которого с каждым "шагом" генерации пиксели принимают заданную сэмплером в рамках промпта форму).

Зелёный - окна промптов и сэмплера (там ещё девять нод посередине, они относятся к синей группе).

Вот это - обязательные элементы любого воркфлоу, без которых вы изображение не получите.

Синий - кастомные ноды, отвечающие за подачу в сэмплер дополнительной информации, их тьма тьмущая.

Фиолетовый - выключенные ноды.

Жёлтый - постобработка готового изображения, типа фиксит лица от косяков, может редактировать выражение лица.

1) Простота освоения - 3/10.

Вам придётся подружиться с командной строкой и различными ресурсами по типу GitHub, HuggingFace, Civitai, чтобы банально иметь возможность поставить интерфейс и требования для его работы себе на комп. Отдельная свистопляска - когда в процессе установки разные компоненты требуют разные версии библиотек и программ - чтобы с этим ладить, нужно дополнительно познакомиться с виртуальными средами и Docker'ом. Большой плюс, если вы работали с терминалом. Познания в инглише приветствуются, так как вы гарантированно будете искать ошибки в командной строке и пытаться их исправить, читая багрепорты индусов по вашей проблеме. Большинство гайдов тоже на английском.

Отдельная тема - постобработка изображений. Руки-клешни с лишними пальцами, кривые заборы, скамейки, искажения от латентного пространства - всё это и многое другое вам нужно править в графических редакторах. Треба умение работать со слоями как минимум. Мне с головой хватает базового GIMP'а.

2) Процесс работы - 8/10.

Это хобби даёт ощущение могущества. В принципе, если вы видели рекламу про "нарисуем твою жену на холсте" - это оно и есть, только вы можете бонусом прибавить человеку три десятка килограмм, сменить расу, возраст, пол, сделать фурри и выполнить это в стиле аниме-фигурки на фоне красивого горного пейзажа. На вход можно подать стиль работ художника и нагенерировать контента в его стиле (всем "честным" художникам пламенный привет). Вы можете редактировать исходные фото, есть ноды под удаление объектов, под сегментирование по каким-либо признакам и формирование маски (полезно для "примерки" одежды, тут хлеб отбирается уже у моделей), под рисование карты глубины и так далее - вы ничем не ограничены. Вы вольны генерировать в том числе и 18+ контент, после чего вы, вероятно, захотите удалить свои фото со всех ресурсов.

Реально, здесь можно залипать часами.

3) Системные требования - 2/10.

Это всё требует приличных мощностей для локального запуска. Моя ноутбучная 3070 на 8gb неплохо тянет генерацию изображений на SDXL и с несколькими кастомными нодами, но Flux уже под завязку забивает видеопамять, и генерация идёт очень медленно. Генерация видео - вообще ахтунг, даже на моей системе ComfyUI сыпет ошибками по видеопамяти. Есть варианты настройки через Google Colab, но как по мне, это не очень удобно.

4) Реакция общественности - 6/10

В ваших руках мощнейший инструмент для создания мемов. Людям важно дать понять, что вы способны только на это. Насчёт остального распространяться себе дороже, в лучшем случае вас доканают с просьбами, в худшем - перестанут с вами общаться.

Однако мемы лайкаются на ура, особенно когда они сделаны качественно.

Вообще, когда я ищу себе натренированные модели, я то и дело натыкаюсь на модели с NSFW, обнажёнными потными ногами, аниме и фурри-проном, вот они пользуются популярностью. Так что для многих людей это всё - способ удовлетворить свои фетиши, и это замечательно, на самом деле.

Никто из нас не святой.

Помимо этого есть много материала для графических дизайнеров, это вторая большая целевая аудитория Stable Diffusion. Есть инструменты и для создания цифровых инфлюенсеров.

Это всё очень глубоко проникло в наш мир, и нам теперь с этим жить, хотите вы этого или нет.

6) Собственные ощущения - 8/10.

Это как изучать какой-нибудь Некрономикон. Сначала ты ничего не понимаешь, потом, с ростом навыка написания промптов и работы с интерфейсом, тебе становится страшно, и ты зарекаешься не пересекать грань. Но с каждой новой генерацией грань размывается, и без наблюдения со стороны сложно понять, как далеко ты зашёл. Но первые ощущения незабываемы. Есть в этом что-то таинственное, запретное, даже греховное. Чувствуешь себя адептом того самого пластмассового мира, который победил.

5) Рыгучесть - 7/10.

Когда я в первый раз увидел раздвоенные конечности с торчащими во все стороны пальцами аки веер - захотелось смачно так рыгнуть. Потом, конечно, привыкаешь.

Источник: vk.com



		Обзор на генерацию изображений посредством нейросетей
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-05-25 11:16 алгоритмы машинного обучения, реализация нейронной сети Играюсь с нейросетями примерно год, успел пощупать замену голоса, дипфейки, генераторы озвучки, подробнее остановился на генерации изображений, так как программировать не умею, а качать ноды (узлы, выполняющие узконаправленную функцию), модели к ним и создавать воркфлоу (совокупность соединённых "нод" для решения конкретной задачи) до сих пор не надоело. Работаю я со Stable Diffusion XL в интерфейсе ComfyUI, я не приемлю платные варианты, потому как: - я хочу иметь полный контроль над генерацией - я не хочу, чтобы в полёте фантазии меня ограничивала цензура проприетарных ресурсов - я не хочу платить деньги капиталистам, и вообще, когда-нибудь наступит тот день, когда все компьютеры будут на Linux, а свободный код захватит мир. Есть ещё интерфейс Automatic1111, но мне было лень с ним разбираться, да и в сравнении с ComfyUI он мало что поддерживает и медленнее работает. Если вы посмотрите на прикреплённое фото, вы увидите много рамочек разного цвета. Бордовый - изображения на вход, результат работы промежуточных нод, результат генерации. Серый - ноды, отвечающие за подгрузку модели (набор "исходников", если грубо), интерпретатора промптов (переводит слова в машинный код), VAE (автокодировщик, дорабатывает изображение из шума латентного пространства) и латентного пространства (очень объёмный термин, в нашем случае - это некий участок, в пределах которого с каждым "шагом" генерации пиксели принимают заданную сэмплером в рамках промпта форму). Зелёный - окна промптов и сэмплера (там ещё девять нод посередине, они относятся к синей группе). Вот это - обязательные элементы любого воркфлоу, без которых вы изображение не получите. Синий - кастомные ноды, отвечающие за подачу в сэмплер дополнительной информации, их тьма тьмущая. Фиолетовый - выключенные ноды. Жёлтый - постобработка готового изображения, типа фиксит лица от косяков, может редактировать выражение лица. 1) Простота освоения - 3/10. Вам придётся подружиться с командной строкой и различными ресурсами по типу GitHub, HuggingFace, Civitai, чтобы банально иметь возможность поставить интерфейс и требования для его работы себе на комп. Отдельная свистопляска - когда в процессе установки разные компоненты требуют разные версии библиотек и программ - чтобы с этим ладить, нужно дополнительно познакомиться с виртуальными средами и Docker'ом. Большой плюс, если вы работали с терминалом. Познания в инглише приветствуются, так как вы гарантированно будете искать ошибки в командной строке и пытаться их исправить, читая багрепорты индусов по вашей проблеме. Большинство гайдов тоже на английском. Отдельная тема - постобработка изображений. Руки-клешни с лишними пальцами, кривые заборы, скамейки, искажения от латентного пространства - всё это и многое другое вам нужно править в графических редакторах. Треба умение работать со слоями как минимум. Мне с головой хватает базового GIMP'а. 2) Процесс работы - 8/10. Это хобби даёт ощущение могущества. В принципе, если вы видели рекламу про "нарисуем твою жену на холсте" - это оно и есть, только вы можете бонусом прибавить человеку три десятка килограмм, сменить расу, возраст, пол, сделать фурри и выполнить это в стиле аниме-фигурки на фоне красивого горного пейзажа. На вход можно подать стиль работ художника и нагенерировать контента в его стиле (всем "честным" художникам пламенный привет). Вы можете редактировать исходные фото, есть ноды под удаление объектов, под сегментирование по каким-либо признакам и формирование маски (полезно для "примерки" одежды, тут хлеб отбирается уже у моделей), под рисование карты глубины и так далее - вы ничем не ограничены. Вы вольны генерировать в том числе и 18+ контент, после чего вы, вероятно, захотите удалить свои фото со всех ресурсов. Реально, здесь можно залипать часами. 3) Системные требования - 2/10. Это всё требует приличных мощностей для локального запуска. Моя ноутбучная 3070 на 8gb неплохо тянет генерацию изображений на SDXL и с несколькими кастомными нодами, но Flux уже под завязку забивает видеопамять, и генерация идёт очень медленно. Генерация видео - вообще ахтунг, даже на моей системе ComfyUI сыпет ошибками по видеопамяти. Есть варианты настройки через Google Colab, но как по мне, это не очень удобно. 4) Реакция общественности - 6/10 В ваших руках мощнейший инструмент для создания мемов. Людям важно дать понять, что вы способны только на это. Насчёт остального распространяться себе дороже, в лучшем случае вас доканают с просьбами, в худшем - перестанут с вами общаться. Однако мемы лайкаются на ура, особенно когда они сделаны качественно. Вообще, когда я ищу себе натренированные модели, я то и дело натыкаюсь на модели с NSFW, обнажёнными потными ногами, аниме и фурри-проном, вот они пользуются популярностью. Так что для многих людей это всё - способ удовлетворить свои фетиши, и это замечательно, на самом деле. Никто из нас не святой. Помимо этого есть много материала для графических дизайнеров, это вторая большая целевая аудитория Stable Diffusion. Есть инструменты и для создания цифровых инфлюенсеров. Это всё очень глубоко проникло в наш мир, и нам теперь с этим жить, хотите вы этого или нет. 6) Собственные ощущения - 8/10. Это как изучать какой-нибудь Некрономикон. Сначала ты ничего не понимаешь, потом, с ростом навыка написания промптов и работы с интерфейсом, тебе становится страшно, и ты зарекаешься не пересекать грань. Но с каждой новой генерацией грань размывается, и без наблюдения со стороны сложно понять, как далеко ты зашёл. Но первые ощущения незабываемы. Есть в этом что-то таинственное, запретное, даже греховное. Чувствуешь себя адептом того самого пластмассового мира, который победил. 5) Рыгучесть - 7/10. Когда я в первый раз увидел раздвоенные конечности с торчащими во все стороны пальцами аки веер - захотелось смачно так рыгнуть. Потом, конечно, привыкаешь. Источник: vk.com Комментарии:

Обзор на генерацию изображений посредством нейросетей

Комментарии: