Что такое модель сегментации (SAM)? Разрыв. |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-04-14 16:28 методы распознавания образов, компьютерная лингвистика, системы технического зрения, алгоритмы машинного обучения Общие сведения о моделях фундамента Модели Foundation добились значительных успехов в обработке естественного языка, начиная с выпуска BERT в 2018 году и вплоть до недавнего выпуска GPT-4 . Компьютерное зрение изо всех сил пытается найти задачу, которая обеспечивает семантически насыщенное предварительное обучение без присмотра, похожее на маскирование следующего токена в тексте. Замаскированные пиксели не обладают таким же эффектом. Наиболее эффективными процедурами предварительного обучения в компьютерном зрении были многомодельные, такие как CLIP , где в программе предварительного обучения используются текст и изображения. Исследовательская группа Segment Anything намеревалась создать задачу, модель и набор данных, которые станут базовой моделью компьютерного зрения. Давайте углубимся в то, как они это сделали. Сегментация — определение того, какие пиксели изображения принадлежат объекту — является одной из базовых задач компьютерного зрения. Решать её приходится в широком спектре приложений, от анализа видео и аудио до редактирования и дополнения материалов новыми цифровыми данными. Но создание точной модели сегментации для конкретных задач обычно требует узконаправленной работы дорогих технических экспертов с доступом к инфраструктуре обучения ИИ и большим объёмам аннотированных данных по предметной области. В ходе своих разработок по компьютерному зрению, лежащих в основе стратегии метавселенной, Meta* представила проект Segment Anything, а именно новую нейросетевую модель Segment Anything Model (SAM) и набор данных Segment Anything 1-Billion mask (SA-1B). Представители компании уверяют, что это крупнейший из когда-либо созданных датасетов сегментации, который может сработать для самых разных применений и способствует дальнейшим исследованиям базовых моделей для компьютерного зрения. Компания выложила датасет и модель в открытый доступ: SA-1B разрешили использовать в исследовательских целях, а SAM — по открытой лицензии Apache 2.0. Проект Segment Anything имеет целью сокращение потребности в экспертных знаниях по моделированию, машинному обучению и аннотированию данных. Разработчики хотели построить базовую модель для сегментации изображений: модель с подсказками, которая обучается на разнообразных данных и может адаптироваться к задачам — аналогично тому, как подсказки используются в моделях обработки естественного языка, таких как ChatGPT. Однако необходимые обучающие данные недоступны онлайн или где-либо ещё, в отличие от изображений, видео и текста, которых в интернете предостаточно. Поэтому вместе с моделью Meta пришлось создать набор данных беспрецедентного масштаба. SAM получила общее представление об объектах и может генерировать маски для любого объекта на любом изображении или видео, включая объекты и типы изображений, с которыми сеть не сталкивалась во время обучения. Она достаточно универсальна, чтобы охватить разные варианты применения, и её можно использовать «из коробки» на новых типах изображений — будь то подводные фотографии или клеточная микроскопия — без дополнительного обучения. Источник: blog.roboflow.com Комментарии: |
|