Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2019-06-08 13:15 Mesh R-CNN — это нейросетевая архитектура, которая для объектов входного изображения предсказывает их форму. Модель была описана в работе от Facebook AI Research (FAIR). По метрикам Mesh R-CNN обходит существующие state-of-the-art подходы по моделированию 3D формы объектов. Последние исследования в компьютерном зрении фокусировались на распознавании объектов в 2D пространстве. В большинстве работ игнорировалась 3D структура объектов. Ранние модели, предсказывающие 3D форму объектов, не были обучены определять форму на реальных изображениях для множества объектов одновременно. Исследователи объединили последние решения из обоих задач и представили Mesh R-CNN. Модель принимает на вход изображение, классифицирует объекты на изображении и для всех объектов определяет их форму в формате полигональной сетки (mesh). Чтобы ухватить разнообразие форм объектов, модель сначала предсказывает воксели объекта, которые затем преобразуются в сетку. Полигональная сетка — это понятие из 3D моделирования, которое используется для определения совокупности вершин, рёбер и граней, которые описывают форму объекта в 3D пространстве. ![]() Архитектура модели Mask R-CNN — это стандартный подход для распознавания объектов на 2D изображении. Mesh R-CNN — это end-to-end модель, которая расширяет Mask R-CNN с помощью блока для предсказания полигональной сетки. Модель была обучена на датасете Pix3D. Процесс обучения модели:
![]() Оценка работы модели Блок предсказания формы (mesh predictor) валидировался на датасете ShapeNet. Затем результаты модели сравнивались с результатами конкурирующих архитектур на данных Pix3D. Ниже видно, что полная модель значительно обходит более ранние архитектуры на задаче предсказания 3D формы объектов на изображении. ![]() Телеграм: t.me/ainewsline Источник: neurohive.io Комментарии: |
|