Meta AI представляет революционную модель сегментации изображений, обученную на 1 миллиарде масок |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-04-10 19:44 Вступление После революционного шага, сделанного ChatGPT от OpenAI в области NLP, развитие искусственного интеллекта продолжается, и Meta AI вносит поразительный прогресс в компьютерное зрение. Исследовательская группа Meta AI представила модель под названием Segment Anything Model (SAM) и набор данных из 1 миллиарда масок на 11 миллионах изображений. Сегментация изображения – это разбиение изображения на множество покрывающих его областей. Предлагаемый проект включает в себя три основных компонента: задачу, модель и данные. 1. Сегментируйте любую задачу Основной целью команды Meta AI было создать модель сегментации изображений, которая работала бы с подсказками пользовательского ввода так же, как она работает с ChatGPT. Поэтому они придумали решение для интеграции пользовательского ввода с изображением для создания масок сегментации. Подсказкой для сегментации может быть любая информация, указывающая, что нужно сегментировать в изображении. Например, набор точек переднего плана или фона, прямоугольник, текст произвольной формы и т.д. Таким образом, выходные данные модели представляют собой допустимую маску сегментации для любого пользовательского запроса. 2. Сегментируйте любую модель Segment Anything Model (SAM) состоит из трёх компонентов, показанных на рисунке ниже: Архитектура модели высокого уровня состоит из кодировщика изображений, кодировщика подсказок и декодировщика масок. Для кодировщика изображений они использовали предварительно обученную модель MAE [1], имеющую архитектуру Vision Transformer(ViT) [2]. Модели ViT – это самые современные модели для решения задач классификации и сегментации изображений. Что касается подсказок, они разделили их на два типа — один тип подсказок разреженный, такой как точки, прямоугольники и текст, а другой тип плотный, такой как маски. На шаге кодирования подсказок создаются вложения для каждого типа подсказок. Что касается декодировщика масок, он просто сопоставляет вложения изображений, встраивания подсказок и выходные токены с маской. 3. Сегментируйте любые данные 3.1 Сегментируйте любой механизм обработки данных Принцип GIGO применим и к области искусственного интеллекта. Если входные данные низкого качества, результат, сгенерированный моделью, также не будет хорошим. Именно поэтому команда Meta постаралась отобрать высококачественные изображения для обучения своей модели. Команда создала механизм обработки данных для фильтрации набора необработанных изображений. Создание механизма обработки данных делится на три этапа:
3.2 Сегментируйте любой набор данных Механизм обработки данных Segment Anything создал набор данных в 1 миллиард масок (SA-1B) на 11 миллионах разнообразных изображений с высоким разрешением (в среднем 3300x4900 пикселей). Стоит отметить, что 99,1% масок были сгенерированы автоматически, однако качество настолько высокое, потому что они тщательно отобраны. Вывод — Почему модель является эволюционной Команда Meta AI, вместе с другими командами крупной компании, добивается больших успехов в разработке искусственного интеллекта. Segment Anything Model (SAM) обладает возможностями для работы приложений во многих областях, требующих поиска и сегментации любого объекта на любом изображении. Например:
Демонстрация сегментации изображений В этой части я попытаюсь использовать официальный код GitHub, чтобы поиграть с алгоритмом с использованием Google Colab и выполнить два типа сегментации изображения. Сначала я выполню сегментацию с помощью пользовательского запроса, а затем я выполню полностью автоматическую сегментацию. Часть 1: Сегментация изображения с использованием пользовательского запроса 1. Настройка (импорт библиотек): 2. Вспомогательные функции для нанесения масок, точек и прямоугольников на изображение: 3. Входное изображение (исходное изображение для сегментации). Давайте попробуем выбрать маску из первого пакета с продуктами: 4. Загрузите предварительно обученную модель с именем sam_vit_h_4b8939.pth, которая является моделью по умолчанию. Существуют и другие облегчённые версии моделей, такие как sam_vit_l_0b3195.pth и sam_vit_b_01ec64.pth. 5. Визуализируйте точку на изображении (подсказка пользователя), которая поможет идентифицировать наш целевой объект — первую сумку с продуктами. 6. Сделайте прогноз, чтобы сгенерировать маску объекта. 7. Покажите 3 лучших сгенерированных маски. Когда multimask_output=True, алгоритм возвращает три маски. Позже мы сможем выбрать тот, который наберёт наибольшее количество баллов. Выделенные объекты – это маски, предсказанные моделью. Как показывает результат, модель сгенерировала три выходные маски со следующими показателями прогнозирования: mask1 — 0,990, Mask2 — 0,875 и Mask3 — 0,827. Мы выбираем mask1, которая набрала наибольшее количество баллов. Вуаля!!!! Маска прогнозирования модели – это целевой объект, который мы изначально хотели сегментировать. Результат потрясающий, модель работает довольно хорошо! Часть 2: Полностью автоматическая сегментация изображений — Продолжение. 1. Функция построения графиков сегментов: 2. Автоматически создавайте маски: 3. Вывод результата: Алгоритм идентифицировал 137 различных объектов (масок), используя параметры по умолчанию. Каждая маска содержит информацию о площади сегмента, координатах ограничивающей рамки, показателях прогнозирования и стабильности, которые могут быть использованы для фильтрации необычных сегментов.
Источники [1] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar, and Ross Girshick. Masked autoencoders are scalable vision learners. CVPR, 2022. [2] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. ICLR, 2021. [3] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollar, Ross Girshick. Segment Anything, 2023 Источник: uproger.com Комментарии: |
|