- O Google apresentou o modelo Computer Use baseado no Gemini 2.5 Pro, dando suporte para que desenvolvedores criem agentes que manipulam diretamente interfaces de usuário
- Em benchmarks de controle web e mobile, mostrou desempenho mais rápido e preciso do que modelos concorrentes, e está disponível em preview no Google AI Studio e no Vertex AI
- O modelo recebe como entrada captura de tela, solicitação do usuário e histórico de ações e gera automaticamente comandos de manipulação de UI como clicar, digitar e rolar
- Para garantir segurança, inclui Per-step Safety Service e procedimentos de confirmação do usuário para evitar uso indevido e ameaças de segurança
- Já foi aplicado em Project Mariner, Firebase Testing Agent e AI Mode in Search, comprovando automação em nível prático e melhorias na eficiência de testes
Visão geral
- O Google DeepMind lançou o modelo Gemini 2.5 Computer Use
- Com base nos recursos de compreensão visual e raciocínio do Gemini 2.5 Pro, trata-se de um modelo para agentes capaz de controlar diretamente UIs web e mobile
- Vai além da automação tradicional baseada em API ao realizar interações em interfaces gráficas, como preenchimento de formulários, rolagem e login
- É oferecido em formato de preview via Google AI Studio e Vertex AI
Como funciona
- Opera em uma estrutura de loop iterativo por meio da nova ferramenta
computer_use
- Entradas: solicitação do usuário, screenshot da UI atual e histórico recente de ações
- Saídas: chamadas de função de ações de UI como clicar, digitar e arrastar
- Algumas tarefas de maior risco (ex.: pagamentos) exigem confirmação do usuário
- Após cada ação, um novo screenshot e a URL são enviados novamente ao modelo para executar a próxima etapa
- Embora seja otimizado principalmente para ambientes de navegador web, também mostra alto desempenho no controle de UIs mobile
Desempenho
- Em avaliações da Browserbase e do próprio Google, registrou precisão e latência em nível de ponta no setor
- Em benchmarks como o Online-Mind2Web, apresentou respostas mais de 50% mais rápidas que os modelos concorrentes
- Também houve melhora na precisão para entender o contexto em telas complexas, com ganho de desempenho de 18% reportado
- Inclui ainda um recurso de recuperação automática em situações de falha durante tarefas de controle de UI, útil para automação de testes
Arquitetura de segurança
- O modelo inclui recursos de segurança embutidos para evitar uso indevido por agentes
- Per-step Safety Service: valida as ações propostas pelo modelo antes da execução
- System Instructions: permitem definir regras de confirmação do usuário ou recusa para determinadas tarefas (segurança, saúde, CAPTCHA etc.)
- O guia para desenvolvedores também fornece recomendações adicionais de segurança e recomenda testes rigorosos antes do uso em produção
Casos iniciais de aplicação
- Equipes internas do Google adotaram a solução para automação de testes de UI, reduzindo a taxa de falha em 25%
- Já está em uso em ambientes reais de produção como Project Mariner, Firebase Testing Agent e AI Mode in Search
- Avaliações de usuários externos iniciais também relataram maior confiabilidade na análise de dados e melhoria na velocidade de execução
- Ex.: a Autotab melhorou em 18% a precisão no tratamento de contextos complexos
- A plataforma de pagamentos do Google recuperou automaticamente 60% dos testes com falha
Como começar
- O modelo está disponível em preview público e pode ser acessado pelos seguintes canais
- Desenvolvedores podem usar a referência no GitHub e a documentação para montar o loop do agente com Playwright ou em ambiente de VM na nuvem
- Feedback está sendo coletado no Developer Forum
2 comentários
Comentários do Hacker News
Há muito tempo, enquanto esperava numa via de duas pistas com semáforo, pensei que, se não houvesse carros na via principal, um sistema de câmera com visão computacional poderia mudar o sinal mais rápido
Mas, na época, a visão computacional ainda não estava madura o suficiente, e acabei descobrindo que era possível detectar carros com sensores magnéticos
Era um problema que podia ser resolvido facilmente com hardware e software muito mais simples, e a minha ideia era uma solução complexa e cara demais
Eu também acreditava que ML/AI deveria ser otimizada para dados estruturados no uso do computador
Mas o mundo ficou mais complexo e os computadores ficaram mais rápidos, então agora é mais realista a IA olhar para a tela, mover o mouse e clicar
Hoje em dia, câmeras de visão computacional já são usadas de forma geral
Sensores magnéticos não detectam bem ciclistas, então atualmente as câmeras são preferidas
Do ponto de vista do responsável municipal pelo tráfego, as câmeras também podem ser usadas para monitorar congestionamentos, então estão ficando cada vez mais populares
Na minha cidade, à noite instalaram um sistema simples com sensor de luz no semáforo, de modo que, ao se aproximar, se você acender o farol alto, o sinal muda
Caso contrário, a via principal ficava verde a noite toda
Quando o carro chegava ao cruzamento, o sinal só mudava com o farol alto ou por fluxo magnético
Eu ando bastante de bicicleta e, ao ar livre, é muito útil ouvir podcast e dizer "Hey Google, volta 30 segundos" para escutar de novo ou pular anúncios
Em ambientes internos, costumo assistir programas de TV ou vídeos do YouTube por casting
Às vezes quero trocar o vídeo do YouTube, mas os comandos de voz para o YouTube mal funcionam e o resultado não é bom
Em outros serviços, comando de voz é quase impossível
Num mundo ideal, o Google ofereceria uma ótima API para esse tipo de integração, e todos os apps a implementariam bem
Se der para pular esse processo e ainda assim obter um ótimo resultado, para mim isso teria muito valor
Pode ser um cenário específico só meu, mas é a parte que mais me anima
Uso de computador é o benchmark mais importante para prever o impacto da IA no mercado de trabalho
Há muitas maneiras melhores de ML/AI realizar com eficiência várias tarefas no computador
Mas todas essas maneiras precisam ser projetadas individualmente para cada tarefa
Uma abordagem generalizada é o caminho mais escalável
Só para constar, esse tipo de câmera de trânsito já é usado amplamente
https://www.milesight.com/company/blog/types-of-traffic-cameras
Por muito tempo foquei na ideia de “transformar tudo no mundo em objetos de banco de dados” para automatizar trabalho manual repetitivo
Eu via o computador como algo capaz de fazer inúmeras coisas com mínima intervenção humana
Também dediquei muito esforço a machine learning
Mas, na verdade, eu nunca tinha pensado em simplesmente usar dados semiestruturados do mundo humano, como o buffer de tela, para fazer o computador trabalhar como um humano com mouse e teclado
Claro que apoio totalmente essa ideia
Acho que, em até 10 anos, talvez chegue uma era em que o computador abra o Chrome, participe de chamadas de vídeo, execute tarefas e a outra pessoa nem perceba que está falando com um computador
A razão de a IA ser mais bem-sucedida do que métodos “teoricamente melhores” é que ela resolve um problema fundamentalmente “social”
O ecossistema de computação é mais competitivo e defensivo do que colaborativo
A própria estrutura, desenhada para impedir a automação da maior parte do trabalho manual tedioso, é central para ganhar dinheiro na internet
Se os usuários puderem evitar estímulos de compra ou exposição a anúncios por meio da automação, a receita cai
Houve um debate parecido em robótica
Muita gente perguntava: “por que fazer robôs em forma humana, se formas mais eficientes seriam possíveis?”
Mas, no fim, para que uma ferramenta seja adotada em massa, ela precisa ser projetada para o ambiente centrado no ser humano, mesmo que isso seja ineficiente
Aplicações voltadas a performance exigem design customizado e otimização, mas para disseminação em massa é preciso adaptar ao humano
Hoje de manhã, pensando em apps de namoro, lembrei do último ponto
Se “o meu chatgpt” puder me representar bem o suficiente, imagino que um matching em app de namoro poderia funcionar fazendo uma espécie de pré-encontro com o chatgpt da outra pessoa
Recentemente ouvi falar de “digital twin” em um keynote enterprise, e isso parece se encaixar nessa ideia
Ainda é cedo para tirar conclusões, mas fico curioso para ver até onde isso vai
Fico me perguntando se realmente se considera um bom resultado um computador abrir o Chrome, entrar em uma chamada de vídeo e executar tarefas como uma pessoa sem que o outro lado perceba que é um computador
Tecnicamente seria um feito enorme e impressionante, mas dá uma sensação estranha
Consegui fazer automação de navegador a partir do Gemini CLI com o Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
Então acho que esse modelo vai mostrar desempenho ainda melhor
Fiquei curioso para saber que tipos de tarefas de automação você conseguiu fazer com MCP
Essa abordagem não tem nada a ver com o modelo necessário para uso de computador
Ela só usa ferramentas predefinidas que o Google fornece no servidor MCP, e não é um modelo genérico aplicável a qualquer software
Se alguém tiver casos de uso reais que sejam mais rápidos do que UX, adoraria ouvir
Ainda não consigo visualizar muito bem como isso deveria ser usado
Vendo tanto investimento, parece claro que existe algo que eu não estou enxergando
A tecnologia e a funcionalidade em si são impressionantes, mas queria exemplos concretos de uso
Se você mandar um bot de navegador resolver o Wordle de hoje, acontece que ele não consegue acertar a resposta porque não consegue ver o feedback das cores das letras (verde, amarelo, cinza)
Dizem que ele consegue digitar a palavra, mas não interpretar o feedback
O Gemini conseguiu passar com sucesso pelo captcha em https://www.google.com/recaptcha/api2/demo
Atualização do post: na verdade, eu vi errado, e quem resolveu o Google CAPTCHA não foi o Gemini, e sim o Browserbase
Mais detalhes estão aqui
A automação roda no Browserbase, e o Browserbase tem um captcha solver embutido
Não está claro se é automático ou humano
Talvez tenha passado porque a tentativa foi feita a partir de um IP da própria rede do Google
(Só usei a demo do Browserbase)
Saber que algo é teoricamente possível e realmente ver, após dar um comando curto, o sistema fazer login em um site, rolar a página e deixar um comentário são experiências completamente diferentes
Hoje no Wordle eu também cometi exatamente o mesmo erro na segunda tentativa e empatei
Fiquei um pouco decepcionado por não ser possível conversar com ele durante a tarefa
Esse tipo de recurso vai necessariamente precisar de algo como hooks/callbacks para governança em sistemas enterprise
Em sistemas baseados em UI, lidar com hooks ou eventos de agente é muito mais difícil
Links relacionados: documentação de hooks do claude code, documentação de callbacks do google adk
Sabendo com que frequência o Claude Code simplesmente ignora hooks, termina o cálculo e não usa o resultado, eu diria que a ideia de “governança” é quase impossível
LLMs são mais imprevisíveis e muito mais difíceis de controlar do que as pessoas imaginam
Já vi casos em que, mesmo com uma falha de teste marcando claramente “não prossiga”, ele seguiu em frente sem se importar
No fim, a única coisa que dá para bloquear com certeza é um hook teórico realmente perigoso de “matar o claude”
Eu cuido do produto de identidade na Browserbase
Ultimamente venho pensando em como introduzir RBAC (controle de acesso baseado em papéis) em toda a web
Fico curioso se callbacks ajudariam nessa abordagem
Quando vi a frase “o controle em nível de OS ainda não está otimizado”, pensei que AGI ainda não chegou
Se esse nível de controle do OS for alcançado, e se o custo de usar LLMs for razoável, acho que poderemos começar algo próximo de AGI
Curiosamente, a maioria das pessoas também não sabe usar computador direito
Dá a sensação de que o conceito de “inteligência” é realmente impossível de definir
Fiquei curioso para saber por que você acha que o controle total do OS seria um passo em direção à AGI (inteligência artificial geral)
Ironicamente, a maioria das empresas de tecnologia ganha dinheiro forçando o usuário a passar por informações inúteis
Por exemplo, se você pudesse navegar livremente na internet sem anúncios, ou ver no Twitter apenas o conteúdo que quer sem algoritmos inúteis, quem não usaria isso?