Microsoft только что выпустила впечатляющий инструмент - OmniParser V2, который может превратить любого LLM в агента, способного использовать компьютер

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-02-15 09:41

ИИ проекты

Он решает две ключевые проблемы GUI-автоматизации:

- Обнаружение интерактивных элементов.

Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.

Понимание семантики интерфейса.

Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.

Плюсы OmniParser V2

- Повышенная точность:

Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .

Сокращение задержки:

- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.

Гибкость и интеграция:

- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.

Поддержка тестов через OmniTool:

- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.

Минусы и ограничения

- Требования к техническим навыкам:

Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.

Ограничения в безопасности:

- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .

Исследовательская стадия:

На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.

Как пользоваться OmniParser V2:

Развертывание через OmniTool:

Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.

Подготовка скриншотов:

Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.

Интеграция с LLM:

Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.

Исполнение действий:

После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.

OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.

GitHub https://github.com/microsoft/OmniParser/tree/master

Official blog post https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

Hugging Face https://huggingface.co/microsoft/OmniParser-v2.0


Источник: huggingface.co

Комментарии: