Матричные нейросети: новая модель для распознавания объектов |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-09-12 17:45 Матричные сети (xNets) — это нейросетевая архитектура, которая специально адаптирована под задачу распознавания объектов на изображении. xNet учитывает пропорции объектов на изображении. На задаче key-point based распознавания объектов xNet обошла другие single-shot архитектуры. При этом параметров нейросеть требует вполовину меньше и обучается в три раза быстрее. Существующие single-shot детекторы для задачи key-point based распознавания объектов имеют два ограничения. Ограничения связаны с использованием одного выходного слоя. Первый — модели требуют крупных, вычислительно сложных базовых моделей (backbones). Второе — модели имеют сложности с точным соотнесением верхнего левого и нижнего правого углов. Чтобы обойти эти ограничения, исследователи предлагают keypointmatrixnet (KP-xNet). keypointmatrixnet испольует ResNet50, Resnet-101 и ResNeXt-101 в качестве базовых моделей. Модель распознает углы для объектов разных размеров и пропорций через разные матричные слои. xNet переносит объекты разных размеров и пропорций в слои, где пропорции объектов с их слоями близки к равномерному распределению. Ниже видно сравнение стандартного подхода для распознавания объектов, — Feature Pyramid Network, — и матричной нейросети. В матричной нейросети 5 FPN слоев представляются на диагонали матрицы. Остальная часть матрицы заполняется слоями из диагонали, к которым был применен даунсемплинг. Как это работает изнутри Ключевое преимущество матричной нейросети заключается в том, что они слои сети формируют квадратный сверточный кернел, который позволяет кодировать информацию о пропорциях распознанного объекта. В стандартных моделях для распознавания объектов таких, как RetinaNet, квадратный сверточный кернел должен выдавать границы объектов разного масштаба и пропорций. Такая логика контринтуитивна, потому как границы объектов разных форм и размеров требуют разные контексты. В матричных нейросетях это ограничение обходится. Разные матричные слои представляют разные контексты. Поэтому модель распознают границы объектов разного размера и формы. MatrixNets можно использовать как базовую модель для любой архитектуры модели для распознавания объектов. KP-xNet — это матричная нейросеть, адаптированная под задачу key-based распознавания объектов. Модель состоит из 4-х компонентов. Первые два компонента — это стандартная xNet. Затем подсеть для каждого матричного слоя предсказывает тепловые карты для верхнего левого и нижнего правого углов. Предсказания центрируются. Углы границ объекта объединяются на том же слое подсети. Сравнение с другими архитектурами Исследователи протестировали xNet и state-of-the-art модели на данных MS COCO. В качестве метрики использовали mAP. Ниже видно, что xNet достигает 47.8% mAP, что выше, чем результаты остальных моделей. Источник: neurohive.io Комментарии: |
|