AI за штурвалом: Google внедрила инструмент Computer Use напрямую в Gemini 3.5 Flash

2026-07-01 11:12

Компания Google объявила о важном архитектурном обновлении своей самой популярной «быстрой» нейросети — функция Computer Use (управление компьютером) теперь нативно интегрирована в Gemini 3.5 Flash.

Ранее для создания автономных ИИ-агентов, способных управлять интерфейсом операционных систем, разработчикам приходилось использовать специализированную и более дорогую модификацию Gemini 2.5. Теперь же эта возможность стала стандартным инструментом базовой модели. Перенос функции на архитектуру 3.5 Flash делает автоматизацию рутинных процессов в разы быстрее и дешевле.

Принцип работы: ИИ вместо человека

В отличие от классических скриптов автоматизации, которые взаимодействуют со скрытым кодом страниц (DOM-деревом или HTML), Gemini 3.5 Flash работает по принципу «Вижу ? Думаю ? Действую»:

Модель делает скриншот текущего состояния экрана (неважно — рабочего стола Windows, мобильного приложения на Android или вкладки в браузере).

Анализирует визуальные элементы и переводит их в нормализованные координаты.

Самостоятельно принимает решение и имитирует действия человека: двигает курсор, кликает по кнопкам, скроллит страницы и вводит текст с виртуальной клавиатуры с помощью библиотек автоматизации (например, Playwright).

В тесте OSWorld, оценивающем способность ИИ выполнять сложные многоэтапные задачи на реальном десктопе, Gemini 3.5 Flash набрала внушительные 78.4 балла, практически сравнявшись с тяжеловесными флагманскими моделями конкурентов, но при этом сохранив высокую скорость отклика.

Сферы применения

Интеграция функции открывает новые горизонты для создания кастомных цифровых ассистентов через Gemini API и платформу Gemini Enterprise Agent Platform:

Автоматизация QA (тестирование): ИИ может непрерывно тестировать веб-сайты и приложения, прокликивая все сценарии, формы регистрации и интерфейсы, как реальный пользователь.

Рутинная работа с данными (RPA): Перенос информации между не связанными друг с другом корпоративными приложениями, заполнение сложных таблиц (например, чтение данных из Google Таблиц и автоматический поиск/покупка товаров на сторонних маркетплейсах).

Сложный сбор информации: Поиск лучших предложений, билетов или аналитики на нескольких сайтах одновременно с формированием итогового отчета.

Безопасность и защита от перехвата управления

Предоставление нейросети прямого доступа к экрану и управлению несет в себе серьезные риски (например, атаки типа Prompt Injection, когда скрытый текст на открытом сайте может заставить ИИ выполнить вредоносную команду). Чтобы обезопасить корпоративный сектор, Google применила многоуровневую защиту:

Состязательное обучение: Модель целенаправленно тренировали игнорировать скрытые текстовые уловки и сторонние инструкции.

User Confirmation: Запрос обязательного физического одобрения от пользователя (человека) перед выполнением критических, финансовых или необратимых действий.

Защитный стоп-кран: Автоматическое немедленное прерывание текущей сессии ИИ-агента при обнаружении любых признаков инъекций в обрабатываемом контенте.

Как протестировать прямо сейчас:

Для разработчиков и энтузиастов запущена интерактивная демонстрационная площадка на платформе Browserbase (проект Gemini Browser). Там можно в реальном времени понаблюдать, как Gemini 3.5 Flash самостоятельно ищет информацию на сайтах, анализирует пул-реквесты на GitHub или играет в головоломку «2048», самостоятельно рассчитывая движения плиток на экране.

Телеграм: t.me/ainewsline

Источник: vk.com



		AI за штурвалом: Google внедрила инструмент Computer Use напрямую в Gemini 3.5 Flash
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-07-01 11:12 Компания Google объявила о важном архитектурном обновлении своей самой популярной «быстрой» нейросети — функция Computer Use (управление компьютером) теперь нативно интегрирована в Gemini 3.5 Flash. Ранее для создания автономных ИИ-агентов, способных управлять интерфейсом операционных систем, разработчикам приходилось использовать специализированную и более дорогую модификацию Gemini 2.5. Теперь же эта возможность стала стандартным инструментом базовой модели. Перенос функции на архитектуру 3.5 Flash делает автоматизацию рутинных процессов в разы быстрее и дешевле. Принцип работы: ИИ вместо человека В отличие от классических скриптов автоматизации, которые взаимодействуют со скрытым кодом страниц (DOM-деревом или HTML), Gemini 3.5 Flash работает по принципу «Вижу ? Думаю ? Действую»: Модель делает скриншот текущего состояния экрана (неважно — рабочего стола Windows, мобильного приложения на Android или вкладки в браузере). Анализирует визуальные элементы и переводит их в нормализованные координаты. Самостоятельно принимает решение и имитирует действия человека: двигает курсор, кликает по кнопкам, скроллит страницы и вводит текст с виртуальной клавиатуры с помощью библиотек автоматизации (например, Playwright). В тесте OSWorld, оценивающем способность ИИ выполнять сложные многоэтапные задачи на реальном десктопе, Gemini 3.5 Flash набрала внушительные 78.4 балла, практически сравнявшись с тяжеловесными флагманскими моделями конкурентов, но при этом сохранив высокую скорость отклика. Сферы применения Интеграция функции открывает новые горизонты для создания кастомных цифровых ассистентов через Gemini API и платформу Gemini Enterprise Agent Platform: Автоматизация QA (тестирование): ИИ может непрерывно тестировать веб-сайты и приложения, прокликивая все сценарии, формы регистрации и интерфейсы, как реальный пользователь. Рутинная работа с данными (RPA): Перенос информации между не связанными друг с другом корпоративными приложениями, заполнение сложных таблиц (например, чтение данных из Google Таблиц и автоматический поиск/покупка товаров на сторонних маркетплейсах). Сложный сбор информации: Поиск лучших предложений, билетов или аналитики на нескольких сайтах одновременно с формированием итогового отчета. Безопасность и защита от перехвата управления Предоставление нейросети прямого доступа к экрану и управлению несет в себе серьезные риски (например, атаки типа Prompt Injection, когда скрытый текст на открытом сайте может заставить ИИ выполнить вредоносную команду). Чтобы обезопасить корпоративный сектор, Google применила многоуровневую защиту: Состязательное обучение: Модель целенаправленно тренировали игнорировать скрытые текстовые уловки и сторонние инструкции. User Confirmation: Запрос обязательного физического одобрения от пользователя (человека) перед выполнением критических, финансовых или необратимых действий. Защитный стоп-кран: Автоматическое немедленное прерывание текущей сессии ИИ-агента при обнаружении любых признаков инъекций в обрабатываемом контенте. Как протестировать прямо сейчас: Для разработчиков и энтузиастов запущена интерактивная демонстрационная площадка на платформе Browserbase (проект Gemini Browser). Там можно в реальном времени понаблюдать, как Gemini 3.5 Flash самостоятельно ищет информацию на сайтах, анализирует пул-реквесты на GitHub или играет в головоломку «2048», самостоятельно рассчитывая движения плиток на экране. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

AI за штурвалом: Google внедрила инструмент Computer Use напрямую в Gemini 3.5 Flash

Комментарии: