Gated-SCNN: новый state-of-the-art в семантической сегментации |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-07-28 11:00 Gated-SCNN — это двухпоточная сверточная нейросеть для семантической сегментации изображений. GSCNN обходит state-of-the-art архитектуры на 2-4% на задаче Cityscapes. Архитектура была разработана исследователями из NVIDIA. Текущие state-of-the-art методы для сегментации изображений создают плотное представление изображения. В таких представлениях одновременно хранится информация о цвете форме и текстуре объекта, и они обрабатываются в глубокой сверточной нейросети. Это подход неоптимальный, потому что представления хранят в себе слишком разнообразную информацию об объекте. В GSCNN обработка изображения делится в два параллельных потока: информация о форме объекта кодируется в отдельном потоке. Суть архитектуры в том гейтах нового типа, которые объединяют промежуточные слои двух потоков. Эксперименты показывают, что такие особенности структуры позволяют выдавать более точные предсказания о границах объекта. Более тонкие и маленькие по размеру объекты распознаются лучше. Что внутри нейросети Архитектура состоит из двух потоков:
Совместная модель затем комбинирует информацию из двух потоков с помощью модуля Atrous Spatial Pyramid Pooling (ASPP). Чтобы границы объекта были точнее, исследователи вводят регуляризатор Dual Task Regularizer Оценка работы модели В качестве базовой модели исследователи брали предобученную нейросеть DeepLabV3+. Это state-of-the-art архитектура для задачи семантической сегментации. Внутри DeepLabV3+ используются ResNet-50, ResNet-101 и WideResNet как базовые модели. Модели обучаются на датасете Cityscapes. Все эксперименты проводятся на том же наборе данных. Датасет состоит из изображений 27 городов. В обучающей выборке — 2975 изображений, в валидационной — 500, а в тестовой — 1525. Для сравнения, на изображении с большим количеством людей базовая модель распознает столбы как часть толпы. В то время как GSCNN распознает объекты корректно. Источник: neurohive.io Комментарии: |
|