Нейросеть от Google AI генерирует изображение по описанию |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-11-28 01:55 Группа исследователей из Google Research предложила нейросетевой метод для генерации изображений из текстов. По результатам экспериментов, модель обходит state-of-the-art подходы. На чем обучали модель Исследователи разработали последовательную нейронную сеть, которую обучали на датасете Lozalized Narratives. Датасет является мультимодальным и содержит пары изображение и текстовое описание содержания изображения. Кроме того, в данных есть разметка положения курсора на изображении, которое соответствует текстовому описанию. Например, если на изображении и в текстовом описании есть яблоко, часть изображения с яблоком будет помечена. Использование датасета позволило модели выучиться предсказывать появление отдельных объектов в частях изображения. Это упрощает задачу распознавания объектов и их локализации на изображении, что также упрощает соотнесение распознанных объектов с описанием. Подробнее про модель Предложенная TReCS использует данные для оценки предсказанных семантических маск объектов, последующего соотнесения и генерации итогового изображения. Пайплайн работы модели состоит из следующих этапов:
Оценка работы модели Исследователи тестировали модель качественно и количественно на датасете LC-COCO и сравнивали с state-of-the-art. В качестве качественной оценки использовали опрос добровольцев. Добровольцев просили проранжировать по достоверности результаты конкурирующих подходов. Для количественной оценки использовали метрики FID (Frechet Inception Distance) и Inception Score (IS). По результатам экспериментов, модель обходит прошлые нейросетевые архитектуры по качеству генерируемых изображений. Источник: neurohive.io Комментарии: |
|