CookGAN: нейросеть генерирует фото блюда по списку ингредиентов |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2020-02-27 18:18 CookGAN — это генеративно-состязательная нейросеть, которая синтезирует реалистичное изображение блюда на основе списка ингредиентов. Модель основывается на StackGAN. Для того, что бы соотносить списки ингредиентов с изображениями, исследователи обучают отдельную модель с механизмом внимания. Результаты из ассоциативной модели используются затем в генеративной модели. Предыдущие подходы к генерации изображений из текста обычно опираются на предобученную текстовую модель, которая извлекает признаки из текста. Затем идет генеративно-состязательная сеть (GAN), которая генерирует фотореалистичные изображения на основе признаков из текста. Предыдущие модели фокусировались в основном на генерации изображений цельных объектов: птиц, цветов и т.п. Задача генерации изображений блюд предполагает, что изначальный вид ингредиентов в списке меняется в процессе готовки. Получается, что итоговое изображение блюда зачастую не содержит ингредиенты в их дефолтном виде. Такая особенность усложняет задачу генерации. Исследователи сначала обучили модель для ассоциирования ингредиентов и изображений, которая включала в себя механизм внимания. Обученная модель далее используется как условие (condition) в GAN. Чтобы контролировать содержание изображений и их качество, исследователи вводят cycle-consistent ограничение. Архитектура подхода Подход можно разделить на два этапа:
![]() Оценка работы модели Исследователи посмотрели, как предложенная CookGAN с механизмом внимания и без работает в сравнении с базовой моделью. В качестве задачи они выбрали извлечение рецепта по фотографии блюда (im2recipe) и извлечение изображения блюда по рецепту (recipe2im). Ниже видно, что нейросеть выдает результаты лучше, чем базовая модель. ![]() Телеграм: t.me/ainewsline Источник: neurohive.io Комментарии: |
|