Lançado o modelo Gemini 2.5 Computer Use — IA para agentes que manipulam a UI diretamente

(blog.google)

4 pontos por GN⁺ 2025-10-08 | 2 comentários | Compartilhar no WhatsApp

O Google apresentou o modelo Computer Use baseado no Gemini 2.5 Pro, dando suporte para que desenvolvedores criem agentes que manipulam diretamente interfaces de usuário
Em benchmarks de controle web e mobile, mostrou desempenho mais rápido e preciso do que modelos concorrentes, e está disponível em preview no Google AI Studio e no Vertex AI
O modelo recebe como entrada captura de tela, solicitação do usuário e histórico de ações e gera automaticamente comandos de manipulação de UI como clicar, digitar e rolar
Para garantir segurança, inclui Per-step Safety Service e procedimentos de confirmação do usuário para evitar uso indevido e ameaças de segurança
Já foi aplicado em Project Mariner, Firebase Testing Agent e AI Mode in Search, comprovando automação em nível prático e melhorias na eficiência de testes

Visão geral

O Google DeepMind lançou o modelo Gemini 2.5 Computer Use
- Com base nos recursos de compreensão visual e raciocínio do Gemini 2.5 Pro, trata-se de um modelo para agentes capaz de controlar diretamente UIs web e mobile
- Vai além da automação tradicional baseada em API ao realizar interações em interfaces gráficas, como preenchimento de formulários, rolagem e login
- É oferecido em formato de preview via Google AI Studio e Vertex AI

Como funciona

Opera em uma estrutura de loop iterativo por meio da nova ferramenta computer_use
- Entradas: solicitação do usuário, screenshot da UI atual e histórico recente de ações
- Saídas: chamadas de função de ações de UI como clicar, digitar e arrastar
- Algumas tarefas de maior risco (ex.: pagamentos) exigem confirmação do usuário
Após cada ação, um novo screenshot e a URL são enviados novamente ao modelo para executar a próxima etapa
Embora seja otimizado principalmente para ambientes de navegador web, também mostra alto desempenho no controle de UIs mobile

Desempenho

Em avaliações da Browserbase e do próprio Google, registrou precisão e latência em nível de ponta no setor
- Em benchmarks como o Online-Mind2Web, apresentou respostas mais de 50% mais rápidas que os modelos concorrentes
- Também houve melhora na precisão para entender o contexto em telas complexas, com ganho de desempenho de 18% reportado
Inclui ainda um recurso de recuperação automática em situações de falha durante tarefas de controle de UI, útil para automação de testes

Arquitetura de segurança

O modelo inclui recursos de segurança embutidos para evitar uso indevido por agentes
- Per-step Safety Service: valida as ações propostas pelo modelo antes da execução
- System Instructions: permitem definir regras de confirmação do usuário ou recusa para determinadas tarefas (segurança, saúde, CAPTCHA etc.)
O guia para desenvolvedores também fornece recomendações adicionais de segurança e recomenda testes rigorosos antes do uso em produção

Casos iniciais de aplicação

Equipes internas do Google adotaram a solução para automação de testes de UI, reduzindo a taxa de falha em 25%
Já está em uso em ambientes reais de produção como Project Mariner, Firebase Testing Agent e AI Mode in Search
Avaliações de usuários externos iniciais também relataram maior confiabilidade na análise de dados e melhoria na velocidade de execução
- Ex.: a Autotab melhorou em 18% a precisão no tratamento de contextos complexos
- A plataforma de pagamentos do Google recuperou automaticamente 60% dos testes com falha

Como começar

O modelo está disponível em preview público e pode ser acessado pelos seguintes canais
- Google AI Studio
- Vertex AI
- É possível testar em tempo real no ambiente de demonstração da Browserbase
Desenvolvedores podem usar a referência no GitHub e a documentação para montar o loop do agente com Playwright ou em ambiente de VM na nuvem
Feedback está sendo coletado no Developer Forum

2 comentários

GN⁺ 2025-10-08

Comentários do Hacker News

Há muito tempo, enquanto esperava numa via de duas pistas com semáforo, pensei que, se não houvesse carros na via principal, um sistema de câmera com visão computacional poderia mudar o sinal mais rápido
Mas, na época, a visão computacional ainda não estava madura o suficiente, e acabei descobrindo que era possível detectar carros com sensores magnéticos
Era um problema que podia ser resolvido facilmente com hardware e software muito mais simples, e a minha ideia era uma solução complexa e cara demais
Eu também acreditava que ML/AI deveria ser otimizada para dados estruturados no uso do computador
Mas o mundo ficou mais complexo e os computadores ficaram mais rápidos, então agora é mais realista a IA olhar para a tela, mover o mouse e clicar
- Hoje em dia, câmeras de visão computacional já são usadas de forma geral
  Sensores magnéticos não detectam bem ciclistas, então atualmente as câmeras são preferidas
  Do ponto de vista do responsável municipal pelo tráfego, as câmeras também podem ser usadas para monitorar congestionamentos, então estão ficando cada vez mais populares
- Na minha cidade, à noite instalaram um sistema simples com sensor de luz no semáforo, de modo que, ao se aproximar, se você acender o farol alto, o sinal muda
  Caso contrário, a via principal ficava verde a noite toda
  Quando o carro chegava ao cruzamento, o sinal só mudava com o farol alto ou por fluxo magnético
- Eu ando bastante de bicicleta e, ao ar livre, é muito útil ouvir podcast e dizer "Hey Google, volta 30 segundos" para escutar de novo ou pular anúncios
  Em ambientes internos, costumo assistir programas de TV ou vídeos do YouTube por casting
  Às vezes quero trocar o vídeo do YouTube, mas os comandos de voz para o YouTube mal funcionam e o resultado não é bom
  Em outros serviços, comando de voz é quase impossível
  Num mundo ideal, o Google ofereceria uma ótima API para esse tipo de integração, e todos os apps a implementariam bem
  Se der para pular esse processo e ainda assim obter um ótimo resultado, para mim isso teria muito valor
  Pode ser um cenário específico só meu, mas é a parte que mais me anima
- Uso de computador é o benchmark mais importante para prever o impacto da IA no mercado de trabalho
  Há muitas maneiras melhores de ML/AI realizar com eficiência várias tarefas no computador
  Mas todas essas maneiras precisam ser projetadas individualmente para cada tarefa
  Uma abordagem generalizada é o caminho mais escalável
- Só para constar, esse tipo de câmera de trânsito já é usado amplamente
  https://www.milesight.com/company/blog/types-of-traffic-cameras
Por muito tempo foquei na ideia de “transformar tudo no mundo em objetos de banco de dados” para automatizar trabalho manual repetitivo
Eu via o computador como algo capaz de fazer inúmeras coisas com mínima intervenção humana
Também dediquei muito esforço a machine learning
Mas, na verdade, eu nunca tinha pensado em simplesmente usar dados semiestruturados do mundo humano, como o buffer de tela, para fazer o computador trabalhar como um humano com mouse e teclado
Claro que apoio totalmente essa ideia
Acho que, em até 10 anos, talvez chegue uma era em que o computador abra o Chrome, participe de chamadas de vídeo, execute tarefas e a outra pessoa nem perceba que está falando com um computador
- A razão de a IA ser mais bem-sucedida do que métodos “teoricamente melhores” é que ela resolve um problema fundamentalmente “social”
  O ecossistema de computação é mais competitivo e defensivo do que colaborativo
  A própria estrutura, desenhada para impedir a automação da maior parte do trabalho manual tedioso, é central para ganhar dinheiro na internet
  Se os usuários puderem evitar estímulos de compra ou exposição a anúncios por meio da automação, a receita cai
- Houve um debate parecido em robótica
  Muita gente perguntava: “por que fazer robôs em forma humana, se formas mais eficientes seriam possíveis?”
  Mas, no fim, para que uma ferramenta seja adotada em massa, ela precisa ser projetada para o ambiente centrado no ser humano, mesmo que isso seja ineficiente
  Aplicações voltadas a performance exigem design customizado e otimização, mas para disseminação em massa é preciso adaptar ao humano
- Hoje de manhã, pensando em apps de namoro, lembrei do último ponto
  Se “o meu chatgpt” puder me representar bem o suficiente, imagino que um matching em app de namoro poderia funcionar fazendo uma espécie de pré-encontro com o chatgpt da outra pessoa
  Recentemente ouvi falar de “digital twin” em um keynote enterprise, e isso parece se encaixar nessa ideia
  Ainda é cedo para tirar conclusões, mas fico curioso para ver até onde isso vai
- Fico me perguntando se realmente se considera um bom resultado um computador abrir o Chrome, entrar em uma chamada de vídeo e executar tarefas como uma pessoa sem que o outro lado perceba que é um computador
  Tecnicamente seria um feito enorme e impressionante, mas dá uma sensação estranha
Consegui fazer automação de navegador a partir do Gemini CLI com o Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
Então acho que esse modelo vai mostrar desempenho ainda melhor
- Fiquei curioso para saber que tipos de tarefas de automação você conseguiu fazer com MCP
- Essa abordagem não tem nada a ver com o modelo necessário para uso de computador
  Ela só usa ferramentas predefinidas que o Google fornece no servidor MCP, e não é um modelo genérico aplicável a qualquer software
Se alguém tiver casos de uso reais que sejam mais rápidos do que UX, adoraria ouvir
Ainda não consigo visualizar muito bem como isso deveria ser usado
Vendo tanto investimento, parece claro que existe algo que eu não estou enxergando
A tecnologia e a funcionalidade em si são impressionantes, mas queria exemplos concretos de uso
Se você mandar um bot de navegador resolver o Wordle de hoje, acontece que ele não consegue acertar a resposta porque não consegue ver o feedback das cores das letras (verde, amarelo, cinza)
Dizem que ele consegue digitar a palavra, mas não interpretar o feedback
- Será que ele está navegando na web em preto e branco?
O Gemini conseguiu passar com sucesso pelo captcha em https://www.google.com/recaptcha/api2/demo
- Atualização do post: na verdade, eu vi errado, e quem resolveu o Google CAPTCHA não foi o Gemini, e sim o Browserbase
  Mais detalhes estão aqui
- A automação roda no Browserbase, e o Browserbase tem um captcha solver embutido
  Não está claro se é automático ou humano
- Talvez tenha passado porque a tentativa foi feita a partir de um IP da própria rede do Google
(Só usei a demo do Browserbase)
Saber que algo é teoricamente possível e realmente ver, após dar um comando curto, o sistema fazer login em um site, rolar a página e deixar um comentário são experiências completamente diferentes
Hoje no Wordle eu também cometi exatamente o mesmo erro na segunda tentativa e empatei
Fiquei um pouco decepcionado por não ser possível conversar com ele durante a tarefa
Esse tipo de recurso vai necessariamente precisar de algo como hooks/callbacks para governança em sistemas enterprise
Em sistemas baseados em UI, lidar com hooks ou eventos de agente é muito mais difícil
Links relacionados: documentação de hooks do claude code, documentação de callbacks do google adk
- Sabendo com que frequência o Claude Code simplesmente ignora hooks, termina o cálculo e não usa o resultado, eu diria que a ideia de “governança” é quase impossível
  LLMs são mais imprevisíveis e muito mais difíceis de controlar do que as pessoas imaginam
  Já vi casos em que, mesmo com uma falha de teste marcando claramente “não prossiga”, ele seguiu em frente sem se importar
  No fim, a única coisa que dá para bloquear com certeza é um hook teórico realmente perigoso de “matar o claude”
- Eu cuido do produto de identidade na Browserbase
  Ultimamente venho pensando em como introduzir RBAC (controle de acesso baseado em papéis) em toda a web
  Fico curioso se callbacks ajudariam nessa abordagem
Quando vi a frase “o controle em nível de OS ainda não está otimizado”, pensei que AGI ainda não chegou
Se esse nível de controle do OS for alcançado, e se o custo de usar LLMs for razoável, acho que poderemos começar algo próximo de AGI
- Curiosamente, a maioria das pessoas também não sabe usar computador direito
  Dá a sensação de que o conceito de “inteligência” é realmente impossível de definir
- Fiquei curioso para saber por que você acha que o controle total do OS seria um passo em direção à AGI (inteligência artificial geral)
Ironicamente, a maioria das empresas de tecnologia ganha dinheiro forçando o usuário a passar por informações inúteis
Por exemplo, se você pudesse navegar livremente na internet sem anúncios, ou ver no Twitter apenas o conteúdo que quer sem algoritmos inúteis, quem não usaria isso?

2025-10-09

[Este comentário foi ocultado.]

Lançado o modelo Gemini 2.5 Computer Use — IA para agentes que manipulam a UI diretamente

Visão geral

Como funciona

Desempenho

Arquitetura de segurança

Casos iniciais de aplicação

Como começar

Leituras relacionadas

2 comentários

Comentários do Hacker News