Gemini 2.5 Computer Use: новый уровень управления интерфейсами |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-10-19 11:46 Google запустила агента, который управляет компьютером через визуальное восприятие и анализ интерфейсов. Gemini 2.5 Computer Use использует скриншоты и историю действий, чтобы определять, куда кликнуть, что ввести и как прокрутить страницу. Модель работает через инструмент computer_use в Gemini API, который принимает изображение экрана и генерирует действия — click_at, type_text_at, scroll_document. При необходимости запрашивает подтверждение пользователя для критичных операций, например покупок или удаления данных. Тесты показывают лидерство Gemini 2.5 на WebArena и Online-Mind2Web, а также минимальные задержки. Агент доступен в Google AI Studio и Vertex AI с поддержкой Python SDK и Playwright API. Бесплатное демо ограничено 5 минутами. Kineiro.ru помогает бизнесу автоматизировать контент без программирования — создание, публикация и аналитика в одном интерфейсе. Итог: ИИ больше не ждёт API — он взаимодействует с любым сайтом напрямую, как человек. Источник: vk.com Комментарии: |
|