BachGAN: нейросеть генерирует изображения на основе карт расположения объектов |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-03-31 17:58 BachGAN — это нейросеть, которая генерирует изображения в высоком разрешении на основе карт расположения объектов. Модель принимает на вход схему с целевым расположением объектов. Нейросеть заполняет остаток изображения по схеме. Разработкой нейросети занимались исследователи из University of Central Florida и Microsoft Dynamics 365 AI Research. Одним из применений модели является использование в качестве ассистента при редактировании изображения. BachGAN обходит существующие подходы на датасетах Cityscapes и ADE20K. Исследователи предлагают задачу генерации изображения по схеме расположения объектов. Схема включает в себя границы объектов и разметку классов объектов. Задача включает в себя две подзадачи:
BachGAN призвана решить обе подзадачи. Модель сначала отбирает набор карт сегментации из широкого пула возможных сегментаций. За отбор сегментационных карт отвечает модуль извлечения заднего фона (background retrieval module). Затем модель кодирует отобранные карты с помощью модуля объединения заднего фона. Модуль позволяет воссоздать подходящий фон для объектов, которые присутствуют на схеме. BachGAN генерирует фотореалистичные изображения в высоком разрешении. Обзор структуры модели BachGAN расшифровывается как Background Hallucination Generative Adversarial Network. Модель состоит из трех компонентов:
Кроме того, в модели есть дискриминаторы, как в оригинальной архитектуре GAN. Оценка работы нейросети Исследователи оценивали модель на двух открытых датасетах: Cityscapes и ADE20K. Cityscapes содержит изображения уличных сцен. В то время как ADE20K состоит из сложных сцен с 150 классами объектов. BachGAN сравнивали с SPADE, SPADE-SEG (SPADE с сегментацией) и Layout2im. Ниже видно, что BachGAN обходит базовые модели по количественным метрикам на обоих датасетах. Источник: neurohive.io Комментарии: |
|