DINOv3 — новая мощная модель компьютерного зрения, обученная полностью без разметки (Self-Supervised Learning) в большом масштабе

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


DINO создаёт высококачественные плотные признаки, отлично понимая как смысл (семантику) сцены, так и её геометрию.

Зачем это нужно:

1) Больше не нужны размеченные данные

Раньше на ImageNet лучшие результаты показывали модели с полной или слабой разметкой. Теперь DINOv3 с чистым SSL догнал их по качеству — и это огромный шаг вперёд.

2) Сильные плотные представления

Модель особенно хороша в задачах, где важны детальные признаки: мульти-модальные LLM, видео и 3D-анализ, робототехника, генеративные модели.

С замороженным ?? backbone DINOv3 получены новые рекорды:

- Обнаружение объектов: 66.1 mAP (COCO)

- Сегментация: 63 mIoU (ADE)

- Оценка глубины: 4.3 ARel (NYU)

Даже встраивание в готовые пайплайны даёт новый SOTA.

3) Модель под любую задачу

- ViT-7B — флагман

- ViT-S/S+/B/L/H+ (от 21M до 840M параметров)

- ConvNeXt — для быстрого инференса

- Text-aligned ViT-L (dino.txt)

- ViT-L/7B для спутниковых снимков

Для спутниковых данных DINOv3 даёт топовые результаты в геопространственных задачах, например в оценке высоты деревьев, и создаёт впечатляющие карты признаков.

Это и есть магия SSL — универсальные признаки, которые работают в самых разных областях.

Github (https://github.com/facebookresearch/dinov3)


Источник: github.com

Комментарии: