AI за штурвалом: Google внедрила инструмент Computer Use напрямую в Gemini 3.5 Flash |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-07-01 11:12 Компания Google объявила о важном архитектурном обновлении своей самой популярной «быстрой» нейросети — функция Computer Use (управление компьютером) теперь нативно интегрирована в Gemini 3.5 Flash. Ранее для создания автономных ИИ-агентов, способных управлять интерфейсом операционных систем, разработчикам приходилось использовать специализированную и более дорогую модификацию Gemini 2.5. Теперь же эта возможность стала стандартным инструментом базовой модели. Перенос функции на архитектуру 3.5 Flash делает автоматизацию рутинных процессов в разы быстрее и дешевле. Принцип работы: ИИ вместо человека В отличие от классических скриптов автоматизации, которые взаимодействуют со скрытым кодом страниц (DOM-деревом или HTML), Gemini 3.5 Flash работает по принципу «Вижу ? Думаю ? Действую»: Модель делает скриншот текущего состояния экрана (неважно — рабочего стола Windows, мобильного приложения на Android или вкладки в браузере). Анализирует визуальные элементы и переводит их в нормализованные координаты. Самостоятельно принимает решение и имитирует действия человека: двигает курсор, кликает по кнопкам, скроллит страницы и вводит текст с виртуальной клавиатуры с помощью библиотек автоматизации (например, Playwright). В тесте OSWorld, оценивающем способность ИИ выполнять сложные многоэтапные задачи на реальном десктопе, Gemini 3.5 Flash набрала внушительные 78.4 балла, практически сравнявшись с тяжеловесными флагманскими моделями конкурентов, но при этом сохранив высокую скорость отклика. Сферы применения Интеграция функции открывает новые горизонты для создания кастомных цифровых ассистентов через Gemini API и платформу Gemini Enterprise Agent Platform: Автоматизация QA (тестирование): ИИ может непрерывно тестировать веб-сайты и приложения, прокликивая все сценарии, формы регистрации и интерфейсы, как реальный пользователь. Рутинная работа с данными (RPA): Перенос информации между не связанными друг с другом корпоративными приложениями, заполнение сложных таблиц (например, чтение данных из Google Таблиц и автоматический поиск/покупка товаров на сторонних маркетплейсах). Сложный сбор информации: Поиск лучших предложений, билетов или аналитики на нескольких сайтах одновременно с формированием итогового отчета. Безопасность и защита от перехвата управления Предоставление нейросети прямого доступа к экрану и управлению несет в себе серьезные риски (например, атаки типа Prompt Injection, когда скрытый текст на открытом сайте может заставить ИИ выполнить вредоносную команду). Чтобы обезопасить корпоративный сектор, Google применила многоуровневую защиту: Состязательное обучение: Модель целенаправленно тренировали игнорировать скрытые текстовые уловки и сторонние инструкции. User Confirmation: Запрос обязательного физического одобрения от пользователя (человека) перед выполнением критических, финансовых или необратимых действий. Защитный стоп-кран: Автоматическое немедленное прерывание текущей сессии ИИ-агента при обнаружении любых признаков инъекций в обрабатываемом контенте. Как протестировать прямо сейчас: Для разработчиков и энтузиастов запущена интерактивная демонстрационная площадка на платформе Browserbase (проект Gemini Browser). Там можно в реальном времени понаблюдать, как Gemini 3.5 Flash самостоятельно ищет информацию на сайтах, анализирует пул-реквесты на GitHub или играет в головоломку «2048», самостоятельно рассчитывая движения плиток на экране. Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|