Новый метод повышает эффективность систем ИИ-трансформеров зрения

2023-06-07 17:35

распознавание образов, кластеризация данных

Преобразователи зрения (ViT) — это мощные технологии искусственного интеллекта (ИИ), которые могут идентифицировать или классифицировать объекты на изображениях, однако существуют серьезные проблемы, связанные как с требованиями к вычислительной мощности, так и с прозрачностью принятия решений. Исследователи разработали новую методологию, которая решает обе проблемы, а также улучшает способность ViT идентифицировать, классифицировать и сегментировать объекты на изображениях.

Трансформеры являются одними из самых мощных существующих моделей ИИ. Например, ChatGPT — это ИИ, который использует архитектуру преобразователя, но входные данные, используемые для его обучения, — это язык. ViT — это искусственный интеллект на основе трансформеров, который обучается с помощью визуальных входных данных. Например, ViT можно использовать для обнаружения и классификации объектов на изображении, например для идентификации всех автомобилей или всех пешеходов на изображении.

Однако ViT сталкиваются с двумя проблемами.

Во-первых, модели-трансформеры очень сложные. По сравнению с объемом данных, загружаемых в ИИ, модели трансформаторов требуют значительных вычислительных мощностей и используют большой объем памяти. Это особенно проблематично для ViT, потому что изображения содержат очень много данных.

Во-вторых, пользователям трудно понять, как именно ViTs принимают решения. Например, вы могли обучить ViT распознавать собак на изображении. Но не совсем понятно, как ViT определяет, что является собакой, а что нет. В зависимости от приложения понимание процесса принятия решений ViT, также известного как интерпретируемость модели, может быть очень важным.

Новая методология ViT, называемая «Patch-to-Cluster Attention» (PaCa), решает обе проблемы.

«Мы решаем проблему, связанную с требованиями к вычислительным ресурсам и памяти, с помощью методов кластеризации, которые позволяют архитектуре преобразователя лучше идентифицировать объекты на изображении и фокусироваться на них», — говорит Тианфу Ву, автор статьи о работе и доцент Электротехника и вычислительная техника в Университете штата Северная Каролина.

«Кластеризация — это когда ИИ объединяет части изображения вместе на основе сходства, которое он находит в данных изображения. Это значительно снижает вычислительные требования к системе. До кластеризации вычислительные требования для ViT являются квадратичными. Например, если система ломается. если изображение разбить на 100 меньших единиц, потребуется сравнить все 100 единиц друг с другом, что составит 10 000 сложных функций».

«С помощью кластеризации мы можем сделать это линейным процессом, в котором каждую меньшую единицу нужно сравнивать только с заранее определенным количеством кластеров. Допустим, вы говорите системе создать 10 кластеров; это будет всего 1000 сложных функций, — говорит Ву.

«Кластеризация также позволяет нам решить проблему интерпретируемости модели, потому что мы можем посмотреть, как он создал кластеры в первую очередь. Какие функции он решил важным при объединении этих разделов данных вместе? И потому, что ИИ создает лишь небольшое количество кластеров, мы можем довольно легко на них взглянуть».

Исследователи провели всестороннее тестирование PaCa, сравнив его с двумя современными ViT, называемыми SWin и PVT.

«Мы обнаружили, что PaCa превосходит SWin и PVT во всех отношениях», — говорит Ву. «PaCa лучше справлялась с классификацией объектов на изображениях, лучше с идентификацией объектов на изображениях и лучше с сегментацией — по сути, очерчивая границы объектов на изображениях. другие ViTs».

«Следующим шагом для нас является расширение PaCa путем обучения на более крупных базовых наборах данных».

Доклад «PaCa-ViT: изучение внимания к кластеру в преобразователях зрения» будет представлен на конференции IEEE/CVF по компьютерному зрению и распознаванию образов, которая состоится 18–22 июня в Ванкувере, Канада.

Источник: android-robot.com



		Новый метод повышает эффективность систем ИИ-трансформеров зрения
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2023-06-07 17:35 распознавание образов, кластеризация данных Преобразователи зрения (ViT) — это мощные технологии искусственного интеллекта (ИИ), которые могут идентифицировать или классифицировать объекты на изображениях, однако существуют серьезные проблемы, связанные как с требованиями к вычислительной мощности, так и с прозрачностью принятия решений. Исследователи разработали новую методологию, которая решает обе проблемы, а также улучшает способность ViT идентифицировать, классифицировать и сегментировать объекты на изображениях. Трансформеры являются одними из самых мощных существующих моделей ИИ. Например, ChatGPT — это ИИ, который использует архитектуру преобразователя, но входные данные, используемые для его обучения, — это язык. ViT — это искусственный интеллект на основе трансформеров, который обучается с помощью визуальных входных данных. Например, ViT можно использовать для обнаружения и классификации объектов на изображении, например для идентификации всех автомобилей или всех пешеходов на изображении. Однако ViT сталкиваются с двумя проблемами. Во-первых, модели-трансформеры очень сложные. По сравнению с объемом данных, загружаемых в ИИ, модели трансформаторов требуют значительных вычислительных мощностей и используют большой объем памяти. Это особенно проблематично для ViT, потому что изображения содержат очень много данных. Во-вторых, пользователям трудно понять, как именно ViTs принимают решения. Например, вы могли обучить ViT распознавать собак на изображении. Но не совсем понятно, как ViT определяет, что является собакой, а что нет. В зависимости от приложения понимание процесса принятия решений ViT, также известного как интерпретируемость модели, может быть очень важным. Новая методология ViT, называемая «Patch-to-Cluster Attention» (PaCa), решает обе проблемы. «Мы решаем проблему, связанную с требованиями к вычислительным ресурсам и памяти, с помощью методов кластеризации, которые позволяют архитектуре преобразователя лучше идентифицировать объекты на изображении и фокусироваться на них», — говорит Тианфу Ву, автор статьи о работе и доцент Электротехника и вычислительная техника в Университете штата Северная Каролина. «Кластеризация — это когда ИИ объединяет части изображения вместе на основе сходства, которое он находит в данных изображения. Это значительно снижает вычислительные требования к системе. До кластеризации вычислительные требования для ViT являются квадратичными. Например, если система ломается. если изображение разбить на 100 меньших единиц, потребуется сравнить все 100 единиц друг с другом, что составит 10 000 сложных функций». «С помощью кластеризации мы можем сделать это линейным процессом, в котором каждую меньшую единицу нужно сравнивать только с заранее определенным количеством кластеров. Допустим, вы говорите системе создать 10 кластеров; это будет всего 1000 сложных функций, — говорит Ву. «Кластеризация также позволяет нам решить проблему интерпретируемости модели, потому что мы можем посмотреть, как он создал кластеры в первую очередь. Какие функции он решил важным при объединении этих разделов данных вместе? И потому, что ИИ создает лишь небольшое количество кластеров, мы можем довольно легко на них взглянуть». Исследователи провели всестороннее тестирование PaCa, сравнив его с двумя современными ViT, называемыми SWin и PVT. «Мы обнаружили, что PaCa превосходит SWin и PVT во всех отношениях», — говорит Ву. «PaCa лучше справлялась с классификацией объектов на изображениях, лучше с идентификацией объектов на изображениях и лучше с сегментацией — по сути, очерчивая границы объектов на изображениях. другие ViTs». «Следующим шагом для нас является расширение PaCa путем обучения на более крупных базовых наборах данных». Доклад «PaCa-ViT: изучение внимания к кластеру в преобразователях зрения» будет представлен на конференции IEEE/CVF по компьютерному зрению и распознаванию образов, которая состоится 18–22 июня в Ванкувере, Канада. Источник: android-robot.com Комментарии:

Новый метод повышает эффективность систем ИИ-трансформеров зрения

Комментарии: