Gemini 2.5 Computer Use: новый уровень управления интерфейсами

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Google запустила агента, который управляет компьютером через визуальное восприятие и анализ интерфейсов. Gemini 2.5 Computer Use использует скриншоты и историю действий, чтобы определять, куда кликнуть, что ввести и как прокрутить страницу.

Модель работает через инструмент computer_use в Gemini API, который принимает изображение экрана и генерирует действия — click_at, type_text_at, scroll_document. При необходимости запрашивает подтверждение пользователя для критичных операций, например покупок или удаления данных.

Тесты показывают лидерство Gemini 2.5 на WebArena и Online-Mind2Web, а также минимальные задержки. Агент доступен в Google AI Studio и Vertex AI с поддержкой Python SDK и Playwright API. Бесплатное демо ограничено 5 минутами.

Kineiro.ru помогает бизнесу автоматизировать контент без программирования — создание, публикация и аналитика в одном интерфейсе.

Итог: ИИ больше не ждёт API — он взаимодействует с любым сайтом напрямую, как человек.


Источник: vk.com

Комментарии: