AI за штурвалом: Google внедрила инструмент Computer Use напрямую в Gemini 3.5 Flash

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-07-01 11:12

Компания Google объявила о важном архитектурном обновлении своей самой популярной «быстрой» нейросети — функция Computer Use (управление компьютером) теперь нативно интегрирована в Gemini 3.5 Flash.

Ранее для создания автономных ИИ-агентов, способных управлять интерфейсом операционных систем, разработчикам приходилось использовать специализированную и более дорогую модификацию Gemini 2.5. Теперь же эта возможность стала стандартным инструментом базовой модели. Перенос функции на архитектуру 3.5 Flash делает автоматизацию рутинных процессов в разы быстрее и дешевле.

Принцип работы: ИИ вместо человека

В отличие от классических скриптов автоматизации, которые взаимодействуют со скрытым кодом страниц (DOM-деревом или HTML), Gemini 3.5 Flash работает по принципу «Вижу ? Думаю ? Действую»:

Модель делает скриншот текущего состояния экрана (неважно — рабочего стола Windows, мобильного приложения на Android или вкладки в браузере).

Анализирует визуальные элементы и переводит их в нормализованные координаты.

Самостоятельно принимает решение и имитирует действия человека: двигает курсор, кликает по кнопкам, скроллит страницы и вводит текст с виртуальной клавиатуры с помощью библиотек автоматизации (например, Playwright).

В тесте OSWorld, оценивающем способность ИИ выполнять сложные многоэтапные задачи на реальном десктопе, Gemini 3.5 Flash набрала внушительные 78.4 балла, практически сравнявшись с тяжеловесными флагманскими моделями конкурентов, но при этом сохранив высокую скорость отклика.

Сферы применения

Интеграция функции открывает новые горизонты для создания кастомных цифровых ассистентов через Gemini API и платформу Gemini Enterprise Agent Platform:

Автоматизация QA (тестирование): ИИ может непрерывно тестировать веб-сайты и приложения, прокликивая все сценарии, формы регистрации и интерфейсы, как реальный пользователь.

Рутинная работа с данными (RPA): Перенос информации между не связанными друг с другом корпоративными приложениями, заполнение сложных таблиц (например, чтение данных из Google Таблиц и автоматический поиск/покупка товаров на сторонних маркетплейсах).

Сложный сбор информации: Поиск лучших предложений, билетов или аналитики на нескольких сайтах одновременно с формированием итогового отчета.

Безопасность и защита от перехвата управления

Предоставление нейросети прямого доступа к экрану и управлению несет в себе серьезные риски (например, атаки типа Prompt Injection, когда скрытый текст на открытом сайте может заставить ИИ выполнить вредоносную команду). Чтобы обезопасить корпоративный сектор, Google применила многоуровневую защиту:

Состязательное обучение: Модель целенаправленно тренировали игнорировать скрытые текстовые уловки и сторонние инструкции.

User Confirmation: Запрос обязательного физического одобрения от пользователя (человека) перед выполнением критических, финансовых или необратимых действий.

Защитный стоп-кран: Автоматическое немедленное прерывание текущей сессии ИИ-агента при обнаружении любых признаков инъекций в обрабатываемом контенте.

Как протестировать прямо сейчас:

Для разработчиков и энтузиастов запущена интерактивная демонстрационная площадка на платформе Browserbase (проект Gemini Browser). Там можно в реальном времени понаблюдать, как Gemini 3.5 Flash самостоятельно ищет информацию на сайтах, анализирует пул-реквесты на GitHub или играет в головоломку «2048», самостоятельно рассчитывая движения плиток на экране.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: