Pix2seq: A Language Modeling Framework for Object Detection |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-09-27 10:00 В данной статье представлен Pix2Seq, простой и универсальный механизм для обнаружения объектов. В отличие от существующих подходов, которые явно интегрируют предварительные знания о задаче, авторы данной работы, ребята из Google Research, просто рассматривают обнаружение объектов как задачу языкового моделирования, обусловленную наблюдаемыми пиксельными входами. Описания объектов (например, ограничительные рамки и метки классов) выражаются в виде последовательностей дискретных лексем, и авторы обучают нейронную сеть воспринимать изображение и генерировать желаемую последовательность. Подход основан главным образом на интуиции: если нейронная сеть знает, где и какие объекты находятся, им просто нужно научить ее считывать их. Ссылка на статью: https://arxiv.org/pdf/2109.10852v1.pdf Ссылка на GitHub: https://github.com/gaopengcuhk/Unofficial-Pix2Seq Источник: github.com Комментарии: |
|