Pix2seq: A Language Modeling Framework for Object Detection

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В данной статье представлен Pix2Seq, простой и универсальный механизм для обнаружения объектов. В отличие от существующих подходов, которые явно интегрируют предварительные знания о задаче, авторы данной работы, ребята из Google Research, просто рассматривают обнаружение объектов как задачу языкового моделирования, обусловленную наблюдаемыми пиксельными входами. Описания объектов (например, ограничительные рамки и метки классов) выражаются в виде последовательностей дискретных лексем, и авторы обучают нейронную сеть воспринимать изображение и генерировать желаемую последовательность. Подход основан главным образом на интуиции: если нейронная сеть знает, где и какие объекты находятся, им просто нужно научить ее считывать их.

Ссылка на статью: https://arxiv.org/pdf/2109.10852v1.pdf

Ссылка на GitHub: https://github.com/gaopengcuhk/Unofficial-Pix2Seq


Источник: github.com

Комментарии: