Новый метод повышает эффективность систем ИИ-трансформеров зрения |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-06-07 17:35 Преобразователи зрения (ViT) — это мощные технологии искусственного интеллекта (ИИ), которые могут идентифицировать или классифицировать объекты на изображениях, однако существуют серьезные проблемы, связанные как с требованиями к вычислительной мощности, так и с прозрачностью принятия решений. Исследователи разработали новую методологию, которая решает обе проблемы, а также улучшает способность ViT идентифицировать, классифицировать и сегментировать объекты на изображениях. Трансформеры являются одними из самых мощных существующих моделей ИИ. Например, ChatGPT — это ИИ, который использует архитектуру преобразователя, но входные данные, используемые для его обучения, — это язык. ViT — это искусственный интеллект на основе трансформеров, который обучается с помощью визуальных входных данных. Например, ViT можно использовать для обнаружения и классификации объектов на изображении, например для идентификации всех автомобилей или всех пешеходов на изображении. Однако ViT сталкиваются с двумя проблемами. Во-первых, модели-трансформеры очень сложные. По сравнению с объемом данных, загружаемых в ИИ, модели трансформаторов требуют значительных вычислительных мощностей и используют большой объем памяти. Это особенно проблематично для ViT, потому что изображения содержат очень много данных. Во-вторых, пользователям трудно понять, как именно ViTs принимают решения. Например, вы могли обучить ViT распознавать собак на изображении. Но не совсем понятно, как ViT определяет, что является собакой, а что нет. В зависимости от приложения понимание процесса принятия решений ViT, также известного как интерпретируемость модели, может быть очень важным. Новая методология ViT, называемая «Patch-to-Cluster Attention» (PaCa), решает обе проблемы. «Мы решаем проблему, связанную с требованиями к вычислительным ресурсам и памяти, с помощью методов кластеризации, которые позволяют архитектуре преобразователя лучше идентифицировать объекты на изображении и фокусироваться на них», — говорит Тианфу Ву, автор статьи о работе и доцент Электротехника и вычислительная техника в Университете штата Северная Каролина. «Кластеризация — это когда ИИ объединяет части изображения вместе на основе сходства, которое он находит в данных изображения. Это значительно снижает вычислительные требования к системе. До кластеризации вычислительные требования для ViT являются квадратичными. Например, если система ломается. если изображение разбить на 100 меньших единиц, потребуется сравнить все 100 единиц друг с другом, что составит 10 000 сложных функций». «С помощью кластеризации мы можем сделать это линейным процессом, в котором каждую меньшую единицу нужно сравнивать только с заранее определенным количеством кластеров. Допустим, вы говорите системе создать 10 кластеров; это будет всего 1000 сложных функций, — говорит Ву. «Кластеризация также позволяет нам решить проблему интерпретируемости модели, потому что мы можем посмотреть, как он создал кластеры в первую очередь. Какие функции он решил важным при объединении этих разделов данных вместе? И потому, что ИИ создает лишь небольшое количество кластеров, мы можем довольно легко на них взглянуть». Исследователи провели всестороннее тестирование PaCa, сравнив его с двумя современными ViT, называемыми SWin и PVT. «Мы обнаружили, что PaCa превосходит SWin и PVT во всех отношениях», — говорит Ву. «PaCa лучше справлялась с классификацией объектов на изображениях, лучше с идентификацией объектов на изображениях и лучше с сегментацией — по сути, очерчивая границы объектов на изображениях. другие ViTs». «Следующим шагом для нас является расширение PaCa путем обучения на более крупных базовых наборах данных». Доклад «PaCa-ViT: изучение внимания к кластеру в преобразователях зрения» будет представлен на конференции IEEE/CVF по компьютерному зрению и распознаванию образов, которая состоится 18–22 июня в Ванкувере, Канада. Источник: android-robot.com Комментарии: |
|