O Google apresentou nesta terça-feira o Gemini 2.5 Computer Use, modelo de IA capaz de interagir com interfaces web da mesma forma que um usuário humano. Anunciado no Google DeepMind Blog, o sistema executa ações como clicar em botões, preencher formulários, rolar páginas e digitar texto, sem depender de APIs estruturadas, mas sim interpretando diretamente elementos visuais dinâmicos das páginas.

Fonte: Google DeepMind Blog
Desempenho em Benchmarks Web e Mobile
Em testes independentes, o Gemini 2.5 Computer Use superou concorrentes em múltiplos benchmarks de navegação. No Online-Mind2Web, o modelo atingiu 76,7% de precisão, contra 61,9% do Claude Sonnet e 44,3% da OpenAI. Já no WebVoyager, atingiu 79,9%, comparado a 69,5% e 61,0%, respectivamente. Esses resultados indicam latência reduzida e capacidade de adaptação a layouts que mudam em tempo real, onde agentes tradicionais frequentemente falham.
Testes internos do Google mostram impacto direto em produtos existentes: no Projeto Mariner, responsável por tarefas de pagamentos online, o novo modelo resolveu mais de 60% dos casos de teste que antes demandavam dias de investigação manual. Segundo engenheiros da equipe de pagamentos, a automação visual permitiu agilizar fluxos de validação e reduzir falhas de compatibilidade entre navegadores.
A Resposta Estratégica à Concorrência de Agentes de IA
O lançamento chega pouco depois da abertura de Agentes do ChatGPT pela OpenAI e segue a abordagem de “Computer Use” iniciada pela Anthropic em 2024. Enquanto soluções oferecem controle completo de desktop, o Gemini 2.5 foca exclusivamente no navegador, suportando 13 ações distintas, incluindo arrastar e soltar e preenchimento condicional de formulários.
Disponível via Google AI Studio e Vertex AI, o modelo segue precificação por tokens semelhante ao Gemini 2.5 Pro: US$ 1,25 por milhão de tokens de entrada para cargas de até 200 000 tokens. Ao contrário do nível gratuito dos demais Geminis, o Computer Use requer assinatura paga desde o primeiro uso, refletindo seu caráter especializado para aplicações empresariais de automação web.
Impacto no Mercado e Acesso do Desenvolvedor
O mercado de agentes de navegador em IA, avaliado em US$ 3,7 bilhões em 2023 e projetado para US$ 7,38 bilhões até 2025, ganha um novo competidor fortíssimo. A integração com o ecossistema Google — Search, Android, YouTube e Workspace — oferece vantagem competitiva a desenvolvedores que buscam soluções end-to-end. No primeiro semestre de 2025, houve mais de 2,3 bilhões de interações com documentos no Google Workspace, indicando demanda por automação avançada.
Para garantir segurança, o Google implementou proteções em várias camadas: revisões de segurança desencadeadas a cada ação, controles explícitos para desenvolvedores e confirmação do usuário para transações sensíveis, como compras online. Essas salvaguardas visam evitar execuções não autorizadas e minimizar riscos de automação maliciosa.

