Нейросеть научили рисовать сложные сцены по текстовому описанию |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-06-18 19:56 Разработчики из Microsoft представили новую архитектуру генеративно-состязательной нейросети, которая умеет рисовать изображения на основе текстового описания качественнее алгоритмов, представленных ранее. Препринт статьи с описанием работы алгоритма опубликован на сайте компании, а также разработчики представят доклад на конференции CVPR 2019, которая сейчас проходит в Калифорнии. Сама по себе задача создания изображений на основе текстового описания (text-to-image) уже не новая: сейчас для этого успешно используются генеративно-состязательные нейросети. Например, в начале прошлого года алгоритм, основанный на работе внимательной генеративно-состязательной сети (attentional GAN, или AttGAN), представила команда разработчиков из Microsoft. Несмотря на свою эффективность, такие алгоритмы умеют воссоздавать только базовые примеры (другой пример — алгоритм, который умеет по описанию рисовать портреты), а вот со сложными сценами с множеством разных объектов справляются пока что плохо. Исправить этот недостаток решила другая группа разработчиков из Microsoft под руководством Вэньбо Ли (Wenbo Li). Для этого они разработали и обучили новый алгоритм, основанную на работе генеративно-состязательной нейросети. Работа объектно-ориентированной генеративно-состязательной нейросети (сокращенно ObjGAN) очень похожа на ранее представленную AttGAN, основное преимущество которой состоит в том, что при создании изображений на основе текста она ориентируется на объекты. Но в ObjGAN части, которая генерирует изображения, предшествует система на основе нейросети с долгой краткосрочной памятью. Слои в ней анализируют нужный текст и выделяют из него объекты, которые необходимо расположить на итоговом изображении, после чего генерируется форма итогового изображения. В итоге та часть алгоритма, которая основана на генеративно-состязательной нейросети, дорисовывает изображение на основе этой формы. Для обучения алгоритма разработчики использовали классический датасет COCO, состоящий из 328 тысяч изображений с текстовыми описаниями. В итоге, судя по примерам, работа ObjGAN в решении задачи генерации изображений на основе текста во многом превосходит ранее представленные алгоритмы и качественно справляется с предложениями с большим количеством описываемых объектов и деталей. С помощью другой архитектуры генеративно-состязательной сети (так называемой «круговой») недавно также удалось научиться достоверно переносить информацию между видео. Прочитать о ее работе вы можете здесь. Елизавета Ивтушок Источник: nplus1.ru Комментарии: |
|