CookGAN: нейросеть генерирует фото блюда по списку ингредиентов |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-02-27 18:18 CookGAN — это генеративно-состязательная нейросеть, которая синтезирует реалистичное изображение блюда на основе списка ингредиентов. Модель основывается на StackGAN. Для того, что бы соотносить списки ингредиентов с изображениями, исследователи обучают отдельную модель с механизмом внимания. Результаты из ассоциативной модели используются затем в генеративной модели. Предыдущие подходы к генерации изображений из текста обычно опираются на предобученную текстовую модель, которая извлекает признаки из текста. Затем идет генеративно-состязательная сеть (GAN), которая генерирует фотореалистичные изображения на основе признаков из текста. Предыдущие модели фокусировались в основном на генерации изображений цельных объектов: птиц, цветов и т.п. Задача генерации изображений блюд предполагает, что изначальный вид ингредиентов в списке меняется в процессе готовки. Получается, что итоговое изображение блюда зачастую не содержит ингредиенты в их дефолтном виде. Такая особенность усложняет задачу генерации. Исследователи сначала обучили модель для ассоциирования ингредиентов и изображений, которая включала в себя механизм внимания. Обученная модель далее используется как условие (condition) в GAN. Чтобы контролировать содержание изображений и их качество, исследователи вводят cycle-consistent ограничение. Архитектура подхода Подход можно разделить на два этапа:
Оценка работы модели Исследователи посмотрели, как предложенная CookGAN с механизмом внимания и без работает в сравнении с базовой моделью. В качестве задачи они выбрали извлечение рецепта по фотографии блюда (im2recipe) и извлечение изображения блюда по рецепту (recipe2im). Ниже видно, что нейросеть выдает результаты лучше, чем базовая модель. Источник: neurohive.io Комментарии: |
|