RT-DETRv2: усовершенствованная CV-модель для детекции объектов в реальном времени

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


RT-DETRv2 - новая версия RT-DETR, альтернативы YOLO. RT-DETRv2 получила ряд улучшений: повышение гибкости, практичности и производительности.

Ключевое изменение - модификация модуля deformable attention в декодере. В RT-DETRv2 предлагается устанавливать различное количество точек выборки для признаков разных масштабов. Это дает возможность более эффективно извлекать многомасштабные признаки, делая ее более адаптировной к множествам сценариям детекции.

Чтобы сделать модель модель более практичной, заменили оператор grid_sample, характерный для DETR, на опциональный discrete_sample, который выполняет округление предсказанных смещений выборки, что ускоряет процесс без значительной потери точности.

RT-DETRv2 обучается стратегией динамического усиления данных (dynamic data augmentation). На ранних этапах используются более интенсивные методы аугментации, чтобы модель лучше обобщала данные. На поздних этапах уровень аугментации снижается, что позволяет модели адаптироваться к целевой области.

В новой версии используется кастомизация гиперпараметров в зависимости от масштаба модели. Например, для ResNet18 увеличивается скорость обучения, тогда как для более крупных моделей - ResNet101, она снижается.

Тесты RT-DETRv2 выполнялись на наборе датасете COCO, где модель показала улучшение метрики AP на 0.3–1.4 пункта по сравнению с RT-DETR, сохраняя при этом высокую скорость работы. Например, RT-DETRv2-S с архитектурой ResNet18 достигла AP 47.9, что на 1.4 пункта выше, чем у RT-DETR-S.

Скрипты для файнтюна (https://github.com/huggingface/transformers/tree/main/examples/pytorch/object-detection) RT-DETRv2 с Trainer (https://huggingface.co/docs/transformers/main/en/main_classes/trainer#transformers.Trainer) или Accelerate (https://huggingface.co/docs/accelerate/index) размещены в репозитории HuggingFace на Github, а ноутбук простого инференса (https://github.com/qubvel/transformers-notebooks/blob/main/notebooks/RT_DETR_v2_inference.ipynb) локально - тут или запустить (https://colab.research.google.com/github/qubvel/transformers-notebooks/blob/main/notebooks/RT_DETR_v2_inference.ipynb) в Google Collab.

Лицензирование: Apache 2.0

Статья (https://huggingface.co/docs/transformers/main/en/model_doc/rt_detr_v2)

Arxiv (https://arxiv.org/pdf/2407.17140)

Google Collab инференса (https://colab.research.google.com/github/qubvel/transformers-notebooks/blob/main/notebooks/RT_DETR_v2_inference.ipynb)

Github (https://github.com/lyuwenyu/RT-DETR)


Источник: github.com

Комментарии: