4 pontos por GN⁺ 2025-10-08 | 2 comentários | Compartilhar no WhatsApp
  • O Google apresentou o modelo Computer Use baseado no Gemini 2.5 Pro, dando suporte para que desenvolvedores criem agentes que manipulam diretamente interfaces de usuário
  • Em benchmarks de controle web e mobile, mostrou desempenho mais rápido e preciso do que modelos concorrentes, e está disponível em preview no Google AI Studio e no Vertex AI
  • O modelo recebe como entrada captura de tela, solicitação do usuário e histórico de ações e gera automaticamente comandos de manipulação de UI como clicar, digitar e rolar
  • Para garantir segurança, inclui Per-step Safety Service e procedimentos de confirmação do usuário para evitar uso indevido e ameaças de segurança
  • Já foi aplicado em Project Mariner, Firebase Testing Agent e AI Mode in Search, comprovando automação em nível prático e melhorias na eficiência de testes

Visão geral

  • O Google DeepMind lançou o modelo Gemini 2.5 Computer Use
    • Com base nos recursos de compreensão visual e raciocínio do Gemini 2.5 Pro, trata-se de um modelo para agentes capaz de controlar diretamente UIs web e mobile
    • Vai além da automação tradicional baseada em API ao realizar interações em interfaces gráficas, como preenchimento de formulários, rolagem e login
    • É oferecido em formato de preview via Google AI Studio e Vertex AI

Como funciona

  • Opera em uma estrutura de loop iterativo por meio da nova ferramenta computer_use
    • Entradas: solicitação do usuário, screenshot da UI atual e histórico recente de ações
    • Saídas: chamadas de função de ações de UI como clicar, digitar e arrastar
    • Algumas tarefas de maior risco (ex.: pagamentos) exigem confirmação do usuário
  • Após cada ação, um novo screenshot e a URL são enviados novamente ao modelo para executar a próxima etapa
  • Embora seja otimizado principalmente para ambientes de navegador web, também mostra alto desempenho no controle de UIs mobile

Desempenho

  • Em avaliações da Browserbase e do próprio Google, registrou precisão e latência em nível de ponta no setor
    • Em benchmarks como o Online-Mind2Web, apresentou respostas mais de 50% mais rápidas que os modelos concorrentes
    • Também houve melhora na precisão para entender o contexto em telas complexas, com ganho de desempenho de 18% reportado
  • Inclui ainda um recurso de recuperação automática em situações de falha durante tarefas de controle de UI, útil para automação de testes

Arquitetura de segurança

  • O modelo inclui recursos de segurança embutidos para evitar uso indevido por agentes
    • Per-step Safety Service: valida as ações propostas pelo modelo antes da execução
    • System Instructions: permitem definir regras de confirmação do usuário ou recusa para determinadas tarefas (segurança, saúde, CAPTCHA etc.)
  • O guia para desenvolvedores também fornece recomendações adicionais de segurança e recomenda testes rigorosos antes do uso em produção

Casos iniciais de aplicação

  • Equipes internas do Google adotaram a solução para automação de testes de UI, reduzindo a taxa de falha em 25%
  • Já está em uso em ambientes reais de produção como Project Mariner, Firebase Testing Agent e AI Mode in Search
  • Avaliações de usuários externos iniciais também relataram maior confiabilidade na análise de dados e melhoria na velocidade de execução
    • Ex.: a Autotab melhorou em 18% a precisão no tratamento de contextos complexos
    • A plataforma de pagamentos do Google recuperou automaticamente 60% dos testes com falha

Como começar

2 comentários

 
GN⁺ 2025-10-08
Comentários do Hacker News
  • Há muito tempo, enquanto esperava numa via de duas pistas com semáforo, pensei que, se não houvesse carros na via principal, um sistema de câmera com visão computacional poderia mudar o sinal mais rápido
    Mas, na época, a visão computacional ainda não estava madura o suficiente, e acabei descobrindo que era possível detectar carros com sensores magnéticos
    Era um problema que podia ser resolvido facilmente com hardware e software muito mais simples, e a minha ideia era uma solução complexa e cara demais
    Eu também acreditava que ML/AI deveria ser otimizada para dados estruturados no uso do computador
    Mas o mundo ficou mais complexo e os computadores ficaram mais rápidos, então agora é mais realista a IA olhar para a tela, mover o mouse e clicar

    • Hoje em dia, câmeras de visão computacional já são usadas de forma geral
      Sensores magnéticos não detectam bem ciclistas, então atualmente as câmeras são preferidas
      Do ponto de vista do responsável municipal pelo tráfego, as câmeras também podem ser usadas para monitorar congestionamentos, então estão ficando cada vez mais populares

    • Na minha cidade, à noite instalaram um sistema simples com sensor de luz no semáforo, de modo que, ao se aproximar, se você acender o farol alto, o sinal muda
      Caso contrário, a via principal ficava verde a noite toda
      Quando o carro chegava ao cruzamento, o sinal só mudava com o farol alto ou por fluxo magnético

    • Eu ando bastante de bicicleta e, ao ar livre, é muito útil ouvir podcast e dizer "Hey Google, volta 30 segundos" para escutar de novo ou pular anúncios
      Em ambientes internos, costumo assistir programas de TV ou vídeos do YouTube por casting
      Às vezes quero trocar o vídeo do YouTube, mas os comandos de voz para o YouTube mal funcionam e o resultado não é bom
      Em outros serviços, comando de voz é quase impossível
      Num mundo ideal, o Google ofereceria uma ótima API para esse tipo de integração, e todos os apps a implementariam bem
      Se der para pular esse processo e ainda assim obter um ótimo resultado, para mim isso teria muito valor
      Pode ser um cenário específico só meu, mas é a parte que mais me anima

    • Uso de computador é o benchmark mais importante para prever o impacto da IA no mercado de trabalho
      Há muitas maneiras melhores de ML/AI realizar com eficiência várias tarefas no computador
      Mas todas essas maneiras precisam ser projetadas individualmente para cada tarefa
      Uma abordagem generalizada é o caminho mais escalável

    • Só para constar, esse tipo de câmera de trânsito já é usado amplamente
      https://www.milesight.com/company/blog/types-of-traffic-cameras

  • Por muito tempo foquei na ideia de “transformar tudo no mundo em objetos de banco de dados” para automatizar trabalho manual repetitivo
    Eu via o computador como algo capaz de fazer inúmeras coisas com mínima intervenção humana
    Também dediquei muito esforço a machine learning
    Mas, na verdade, eu nunca tinha pensado em simplesmente usar dados semiestruturados do mundo humano, como o buffer de tela, para fazer o computador trabalhar como um humano com mouse e teclado
    Claro que apoio totalmente essa ideia
    Acho que, em até 10 anos, talvez chegue uma era em que o computador abra o Chrome, participe de chamadas de vídeo, execute tarefas e a outra pessoa nem perceba que está falando com um computador

    • A razão de a IA ser mais bem-sucedida do que métodos “teoricamente melhores” é que ela resolve um problema fundamentalmente “social”
      O ecossistema de computação é mais competitivo e defensivo do que colaborativo
      A própria estrutura, desenhada para impedir a automação da maior parte do trabalho manual tedioso, é central para ganhar dinheiro na internet
      Se os usuários puderem evitar estímulos de compra ou exposição a anúncios por meio da automação, a receita cai

    • Houve um debate parecido em robótica
      Muita gente perguntava: “por que fazer robôs em forma humana, se formas mais eficientes seriam possíveis?”
      Mas, no fim, para que uma ferramenta seja adotada em massa, ela precisa ser projetada para o ambiente centrado no ser humano, mesmo que isso seja ineficiente
      Aplicações voltadas a performance exigem design customizado e otimização, mas para disseminação em massa é preciso adaptar ao humano

    • Hoje de manhã, pensando em apps de namoro, lembrei do último ponto
      Se “o meu chatgpt” puder me representar bem o suficiente, imagino que um matching em app de namoro poderia funcionar fazendo uma espécie de pré-encontro com o chatgpt da outra pessoa
      Recentemente ouvi falar de “digital twin” em um keynote enterprise, e isso parece se encaixar nessa ideia
      Ainda é cedo para tirar conclusões, mas fico curioso para ver até onde isso vai

    • Fico me perguntando se realmente se considera um bom resultado um computador abrir o Chrome, entrar em uma chamada de vídeo e executar tarefas como uma pessoa sem que o outro lado perceba que é um computador
      Tecnicamente seria um feito enorme e impressionante, mas dá uma sensação estranha

  • Consegui fazer automação de navegador a partir do Gemini CLI com o Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
    Então acho que esse modelo vai mostrar desempenho ainda melhor

    • Fiquei curioso para saber que tipos de tarefas de automação você conseguiu fazer com MCP

    • Essa abordagem não tem nada a ver com o modelo necessário para uso de computador
      Ela só usa ferramentas predefinidas que o Google fornece no servidor MCP, e não é um modelo genérico aplicável a qualquer software

  • Se alguém tiver casos de uso reais que sejam mais rápidos do que UX, adoraria ouvir
    Ainda não consigo visualizar muito bem como isso deveria ser usado
    Vendo tanto investimento, parece claro que existe algo que eu não estou enxergando
    A tecnologia e a funcionalidade em si são impressionantes, mas queria exemplos concretos de uso

  • Se você mandar um bot de navegador resolver o Wordle de hoje, acontece que ele não consegue acertar a resposta porque não consegue ver o feedback das cores das letras (verde, amarelo, cinza)
    Dizem que ele consegue digitar a palavra, mas não interpretar o feedback

    • Será que ele está navegando na web em preto e branco?
  • O Gemini conseguiu passar com sucesso pelo captcha em https://www.google.com/recaptcha/api2/demo

    • Atualização do post: na verdade, eu vi errado, e quem resolveu o Google CAPTCHA não foi o Gemini, e sim o Browserbase
      Mais detalhes estão aqui

    • A automação roda no Browserbase, e o Browserbase tem um captcha solver embutido
      Não está claro se é automático ou humano

    • Talvez tenha passado porque a tentativa foi feita a partir de um IP da própria rede do Google

  • (Só usei a demo do Browserbase)
    Saber que algo é teoricamente possível e realmente ver, após dar um comando curto, o sistema fazer login em um site, rolar a página e deixar um comentário são experiências completamente diferentes
    Hoje no Wordle eu também cometi exatamente o mesmo erro na segunda tentativa e empatei
    Fiquei um pouco decepcionado por não ser possível conversar com ele durante a tarefa

  • Esse tipo de recurso vai necessariamente precisar de algo como hooks/callbacks para governança em sistemas enterprise
    Em sistemas baseados em UI, lidar com hooks ou eventos de agente é muito mais difícil
    Links relacionados: documentação de hooks do claude code, documentação de callbacks do google adk

    • Sabendo com que frequência o Claude Code simplesmente ignora hooks, termina o cálculo e não usa o resultado, eu diria que a ideia de “governança” é quase impossível
      LLMs são mais imprevisíveis e muito mais difíceis de controlar do que as pessoas imaginam
      Já vi casos em que, mesmo com uma falha de teste marcando claramente “não prossiga”, ele seguiu em frente sem se importar
      No fim, a única coisa que dá para bloquear com certeza é um hook teórico realmente perigoso de “matar o claude”

    • Eu cuido do produto de identidade na Browserbase
      Ultimamente venho pensando em como introduzir RBAC (controle de acesso baseado em papéis) em toda a web
      Fico curioso se callbacks ajudariam nessa abordagem

  • Quando vi a frase “o controle em nível de OS ainda não está otimizado”, pensei que AGI ainda não chegou
    Se esse nível de controle do OS for alcançado, e se o custo de usar LLMs for razoável, acho que poderemos começar algo próximo de AGI

    • Curiosamente, a maioria das pessoas também não sabe usar computador direito
      Dá a sensação de que o conceito de “inteligência” é realmente impossível de definir

    • Fiquei curioso para saber por que você acha que o controle total do OS seria um passo em direção à AGI (inteligência artificial geral)

  • Ironicamente, a maioria das empresas de tecnologia ganha dinheiro forçando o usuário a passar por informações inúteis
    Por exemplo, se você pudesse navegar livremente na internet sem anúncios, ou ver no Twitter apenas o conteúdo que quer sem algoritmos inúteis, quem não usaria isso?

 
[Este comentário foi ocultado.]