Что такое модель сегментации (SAM)? Разрыв.

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Общие сведения о моделях фундамента

Модели Foundation добились значительных успехов в обработке естественного языка, начиная с выпуска BERT в 2018 году и вплоть до недавнего выпуска GPT-4 .

Компьютерное зрение изо всех сил пытается найти задачу, которая обеспечивает семантически насыщенное предварительное обучение без присмотра, похожее на маскирование следующего токена в тексте. Замаскированные пиксели не обладают таким же эффектом. Наиболее эффективными процедурами предварительного обучения в компьютерном зрении были многомодельные, такие как CLIP , где в программе предварительного обучения используются текст и изображения.

Исследовательская группа Segment Anything намеревалась создать задачу, модель и набор данных, которые станут базовой моделью компьютерного зрения.

Давайте углубимся в то, как они это сделали.

Сегментация — определение того, какие пиксели изображения принадлежат объекту — является одной из базовых задач компьютерного зрения. Решать её приходится в широком спектре приложений, от анализа видео и аудио до редактирования и дополнения материалов новыми цифровыми данными. Но создание точной модели сегментации для конкретных задач обычно требует узконаправленной работы дорогих технических экспертов с доступом к инфраструктуре обучения ИИ и большим объёмам аннотированных данных по предметной области.

В ходе своих разработок по компьютерному зрению, лежащих в основе стратегии метавселенной, Meta* представила проект Segment Anything, а именно новую нейросетевую модель Segment Anything Model (SAM) и набор данных Segment Anything 1-Billion mask (SA-1B). Представители компании уверяют, что это крупнейший из когда-либо созданных датасетов сегментации, который может сработать для самых разных применений и способствует дальнейшим исследованиям базовых моделей для компьютерного зрения.

Компания выложила датасет и модель в открытый доступ: SA-1B разрешили использовать в исследовательских целях, а SAM — по открытой лицензии Apache 2.0.

Проект Segment Anything имеет целью сокращение потребности в экспертных знаниях по моделированию, машинному обучению и аннотированию данных. Разработчики хотели построить базовую модель для сегментации изображений: модель с подсказками, которая обучается на разнообразных данных и может адаптироваться к задачам — аналогично тому, как подсказки используются в моделях обработки естественного языка, таких как ChatGPT. Однако необходимые обучающие данные недоступны онлайн или где-либо ещё, в отличие от изображений, видео и текста, которых в интернете предостаточно. Поэтому вместе с моделью Meta пришлось создать набор данных беспрецедентного масштаба.

SAM получила общее представление об объектах и может генерировать маски для любого объекта на любом изображении или видео, включая объекты и типы изображений, с которыми сеть не сталкивалась во время обучения. Она достаточно универсальна, чтобы охватить разные варианты применения, и её можно использовать «из коробки» на новых типах изображений — будь то подводные фотографии или клеточная микроскопия — без дополнительного обучения.


Источник: blog.roboflow.com

Комментарии: