3 pontos por GN⁺ 2025-07-18 | 1 comentários | Compartilhar no WhatsApp
  • ChatGPT Agent usa seu próprio computador virtual para executar tarefas complexas dos usuários do início ao fim
  • Forma um novo sistema agêntico que combina a capacidade de interação com sites do Operator com o desempenho de análise de informações da Pesquisa Profunda, realizando com flexibilidade cliques, entrada de dados e execução de código
  • O usuário pode instruir o agente a executar tarefas como envio de formulários, reservas e criação de arquivos em seu lugar, com possibilidade de intervir a qualquer momento
  • Comprovou desempenho superior em relação a modelos anteriores em diversos benchmarks reais, como SpreadsheetBench, DSBench e BrowseComp
  • Usuários Pro, Plus e Team já podem usar a partir de hoje, e os controles de dados do usuário e os recursos de segurança também foram projetados com rigor

ChatGPT Agent conecta pesquisa e ação

Introdução das capacidades de agente

  • O ChatGPT expandiu suas capacidades para realizar tarefas complexas em nome do usuário por meio de seu próprio computador virtual
  • O ChatGPT Agent integra em um único modelo de agente as capacidades do Operator (interação baseada em navegador remoto) e da Pesquisa Profunda (ferramenta de raciocínio web em múltiplas etapas)
    • O Operator era forte em ações na web (rolagem, clique, preenchimento de formulários), mas tinha limitações em análises profundas ou criação de relatórios
    • Já a Pesquisa Profunda era especializada em análise e resumo, mas não conseguia interagir com sites em tempo real nem acessar conteúdo autenticado
  • Ao unir os pontos fortes complementares das duas ferramentas, oferece alta eficiência em um único ambiente para clicar, filtrar e coletar dados
  • É possível alternar com flexibilidade entre conversa e solicitações dentro da interface de chat
  • Exemplos:
    • “Analise três concorrentes e crie uma apresentação de slides”
    • “Organize a próxima reunião com base nas notícias mais recentes”

Como funciona e como interage

  • O ChatGPT Agent conta com várias ferramentas de acesso à web, como navegador visual baseado em GUI, navegador baseado em texto e conexões diretas com API
  • Ao executar uma tarefa, o sistema combina da forma mais eficiente navegador, API e raciocínio textual, selecionando dinamicamente o melhor caminho conforme a situação
  • Realiza tarefas de ponta a ponta, como clicar em sites, aplicar filtros, orientar o login, executar código, resumir resultados e gerar slides
  • O usuário pode intervir a qualquer momento durante a tarefa e assumir diretamente o controle do navegador
    • É possível adicionar instruções, mudar a direção da tarefa, interromper e solicitar os resultados atuais a qualquer momento
    • A tarefa em andamento pode ser interrompida e reiniciada a qualquer momento, mantendo a consistência por meio de compartilhamento de contexto
    • Em caso de incerteza, o ChatGPT solicita ativamente informações adicionais
  • Por meio dos procedimentos de autenticação de login do usuário, também pode acessar com segurança dados corporativos ou pessoais

Desempenho excepcional e casos de uso

  • Obteve pontuações excelentes em benchmarks de referência em comparação com modelos anteriores
    • Humanity’s Last Exam: 43,1 pontos em perguntas de nível especializado
    • DSBench: vantagem esmagadora sobre modelos anteriores em tarefas de ciência de dados
    • SpreadsheetBench:
      • 45,5% na edição direta de planilhas .xlsx, superando com folga o GPT‑4o (13,38%) e o Excel Copilot (20%)
    • WebArena: também superou o modelo anterior do Operator em tarefas reais de interação na web
    • BrowseComp: melhor marca, com 68,9 pontos, em capacidade de coletar informações difíceis de encontrar na web
  • Em tarefas de analistas de banco de investimento e análises complexas de dados, produziu resultados mais precisos e abrangentes do que as ferramentas anteriores
  • Oferece grande utilidade para automação no trabalho e no dia a dia
    • Trabalho:
      • Geração automática de apresentações
      • Ajuste de agendas de reuniões
      • Atualização de planilhas com base em dados financeiros
    • Dia a dia:
      • Planejamento e reservas de viagens
      • Planejamento de eventos e conexão com consultoria especializada

Ativação, casos de uso e limitações

  • Após selecionar o ‘modo agente’, basta inserir a descrição da tarefa em coreano ou inglês para iniciar a execução automática
  • narração na tela durante o processo, com possibilidade de controle manual quando necessário
  • Foi introduzido um sistema flexível de créditos, com agendamento automático de tarefas repetitivas e limite mensal de execuções
  • Usuários atuais de Operator/Pesquisa Profunda passarão por um uso temporário de menos de 30 dias antes da transição integrada para o agente
  • Alguns novos recursos, como geração de apresentações de slides, estão em beta, e a qualidade e o acabamento das saídas serão melhorados no futuro

Segurança, privacidade e prevenção de ações maliciosas

  • Antes de executar tarefas que alterem o mundo real, sempre solicita confirmação explícita do usuário e autorização para agir
  • Em tarefas sensíveis que exigem supervisão ativa, é necessária aprovação em cada etapa, e transações de alto risco e interações legais são recusadas
  • Foi projetado um sistema de detecção e defesa contra ataques maliciosos de terceiros, como prompt injection; em caso de ambiguidade, informa o risco, apresenta opções e só executa após confirmação final do usuário
  • Para evitar uso indevido, aplica de forma reforçada as políticas de segurança existentes do ChatGPT, e os termos de uso e políticas da OpenAI são aplicados obrigatoriamente
  • Para reforçar a proteção de dados pessoais, os dados do navegador remoto não são armazenados em seus próprios servidores
  • Os dados de navegação e o controle da sessão pertencem integralmente ao usuário, que pode excluir tudo imediatamente ou fazer logout
  • No modo de controle direto, o ChatGPT não pode ver informações inseridas pelo usuário

Implantação do agente, políticas e orientações de uso

  • Assinantes Pro, Plus e Team podem usar imediatamente, e a expansão para usuários corporativos e educacionais está prevista para julho
  • O Pro é quase ilimitado; os demais planos podem usar 50 vezes por mês + sistema de créditos adicionais
  • É possível conectar fluxos de trabalho e conectores de cada usuário para vários usos, como resumos somente leitura de informações e análise de agendas
  • O preview de pesquisa do Operator será encerrado após 30 dias, e a Pesquisa Profunda poderá ser ativada separadamente quando necessário
  • O ChatGPT Agent segue em melhoria contínua, e sua inteligência de fluxo de trabalho profunda e flexível, assim como a qualidade da saída, devem evoluir gradualmente

Recurso de apresentação de slides e direção futura

  • A criação de apresentações de slides está atualmente em beta, e a qualidade e o formato podem ser insuficientes quando não houver documentos existentes incluídos
  • Elementos como texto, gráficos e imagens são estruturados como vetores facilmente editáveis, reforçando a organização e a flexibilidade
  • O recurso de upload pode ser aplicado a planilhas, mas para apresentações de slides será disponibilizado futuramente
  • Espera-se que, no futuro, a capacidade de automação melhore com suporte a uma variedade maior de recursos, formatos e saídas mais refinadas

Outras comparações de desempenho e critérios

Modelo Base em células Base em planilhas Pontuação geral
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT Agent 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
Humano 75.56% 65.00% 71.33%
  • Com base na tabela de benchmark de desempenho, o ChatGPT Agent ainda não alcança a pontuação humana no processamento de ambientes .xlsx e na avaliação com LibreOffice, mas está em um nível amplamente superior entre os modelos de IA
  • Pode haver alguma variação numérica devido a diferenças no ambiente de avaliação, mas sua capacidade geral foi comprovada em todo o conjunto de 912 itens de avaliação de planilhas

1 comentários

 
GN⁺ 2025-07-18
Comentários do Hacker News
  • Achei divertido o vídeo de exemplo da "planilha". Dizem que normalmente leva de 4 a 8 horas para montar um relatório complexo e cheio de dados, mas agora basta pedir ao agente, sair para caminhar e depois voltar para receber os dados. Segundo eles, 98% ficou correto, e só é preciso copiar/colar algumas coisas. Parece economizar 90~95% do tempo. Mas sinto que encontrar esses 2% de erro pode tomar um tempo real. Especialmente em tarefas complexas ou em coisas que envolvem dinheiro, o "quase certo" pode virar uma dor de cabeça enorme. Se esses 2% de erros sutis estiverem escondidos em várias etapas, aí realmente vira um problema

    • Acho que esse é justamente um caso de cair na armadilha das expectativas exageradas sobre IA. Automatizar coleta e validação de dados é um bom uso. As pessoas estão indo longe demais ao imaginar a IA fazendo tudo sozinha. Quando alguém diz que acertou 98%, quem tem experiência com planilhas deveria ficar em alerta. Porque é difícil saber quais 2% estão errados antes de revisar tudo pessoalmente. Com código é a mesma coisa: quem usa a ajuda da IA com critério e revisa por conta própria consegue resultados melhores. Já o método de ficar repetindo prompts só até os testes passarem e então abrir um PR direto, na minha opinião, causa problemas sérios
    • No mundo da IA, essa mentalidade de tratar esses 2% como algo insignificante parece quase uma hipnose coletiva. É como naquela analogia de "apertar o botão: 1 dólar, saber qual botão apertar: 9.999 dólares"; acho que corrigir esses 2% pode, na prática, ter um valor enorme. E encontrar isso pode levar tanto tempo quanto os outros 98%
    • Acho que a lei de Pareto atua nesse tipo de fenômeno. Numa área vizinha, a direção autônoma também não consegue há anos passar dos 20% finais. É curioso pensar que, um dia, direção autônoma estava no centro de todas as discussões, e agora quase ninguém mais fala disso
    • É exatamente o mesmo problema quando se usa LLM para trabalhos que exigem precisão. Como em pipelines de dados com várias etapas, por fora tudo parece perfeito, mas quando você valida os dados reais sempre há algo desalinhado. Nessa hora, você acaba gastando tanto tempo e esforço quanto escrever tudo do zero, mergulhando em código excessivamente longo para achar alguns probleminhas pequenos, mas importantes
  • A ameaça de segurança parece realmente assustadora. Por exemplo, se você der acesso ao e-mail e ao calendário, ela pode passar a saber todos os seus segredos. O artigo também reconhece o risco de prompt injection. Se uma página maliciosa esconder prompts em elementos invisíveis ou metadados e o agente não perceber isso, dados pessoais podem vazar para o atacante. Acho que um site malicioso pode roubar meus segredos. Uma coisa que me deixa curioso é que o artigo diz que ações importantes sempre exigem confirmação do usuário, mas como exatamente a IA decide o que é uma "ação importante"? Fico preocupado se não pode acontecer de ela fazer um pagamento por engano sem pedir confirmação

    • Acho quase certo que vão surgir ataques de prompt injection em convites de calendário. Convites de calendário já incluem um monte de frases geradas automaticamente e ninguém lê tudo com atenção, então é muito fácil enfiar código de ataque ali. Aí o calendário da vítima e outros dados pessoais podem ser roubados por completo
    • Em TI já tem muita gente que separa computação em privado e público, mas acho que daqui para frente vamos precisar de uma etapa intermediária. Por exemplo, vale pensar em separar dados de risco intermediário, como calendários anonimizados e não sensíveis, diários sem preocupação, notas de pesquisa etc. Eu não uso ChatGPT para assuntos médicos nem para conversas sensíveis. Ouço dizer que muita gente usa, mas ainda me dá insegurança
    • Quase qualquer pessoa pode enviar convites para o calendário dos outros também (claro, nem todo mundo aceita qualquer convite). Se esse tipo de agente se espalhar, os hackers claramente vão começar a distribuir convites de phishing contendo exatamente os prompts que querem
    • Tenho dificuldade até de imaginar dar acesso aos meus dados e, ao mesmo tempo, sentir "medo". Dá para ficar preocupado, mas medo mesmo, não
    • A Anthropic mediu uma taxa de chantagem simulada de 0,8% no GPT-4.1
      Pesquisa sobre agentic misalignment
      A análise diz que isso pode funcionar de forma parecida com uma ameaça interna, como um colega de confiança que de repente passa a agir contra a política da empresa
  • Talvez por eu mesmo estar construindo um negócio de agentes, vejo com clareza que o salto de 90% para 99% é um problema de última milha extremamente difícil no campo dos LLMs. Quanto mais genérico, maior a chance de fracasso ou decepção. Na prática, tenho a impressão de que estão otimizando só a parte que fica fácil de mostrar em demo e escondendo a realidade inconveniente. Mas isso não quer dizer que agentes não tenham valor; só acho que precisamos distinguir o impacto potencial da expectativa exagerada

    • As recentes "inovações" em IA vieram de avanços científicos e de pesquisa sólidos
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        Mas acho que "agente" é só um termo de marketing e não tem uma base tão sólida quanto a que tornou LLM algo de uso geral. Quase não há dados relacionados
    • Sinto que surge o mesmo problema de terceirização. Os 90% iniciais terminam rápido, mas os 10% restantes são realmente difíceis e dependem de como aqueles 90% anteriores foram feitos
    • Acho que muitas empresas mostram só o happy path nas demos e escondem a realidade de verdade. Quase toda empresa de IA hoje em dia está assim
    • Hoje em dia, acho que dá para aumentar a precisão treinando com RL a partir de dados de uso reais em quantidade suficiente. Só com prompt há limites, então ensinar tarefas específicas ajuda muito mais. Outra abordagem promissora é gerar em paralelo e decidir por maioria, ou deixar um LLM julgar. Mas no fim, no Vale do Silício, hype pesa muito. Como o hype impulsiona o crescimento das empresas, acho que esse clima não vai mudar tão cedo
    • A qualidade da demo nem era tão alta. No vídeo de chat ao vivo em que o Sam Altman participou, o planejador de tour por estádios de beisebol fazia traços aleatórios, ignorava completamente a costa leste e mergulhava no Golfo do México — era uma bagunça. E isso mesmo sendo algo pré-gravado exibido como live
  • Um grande problema nos agentes de CLI existentes era não manter a sessão; desta vez, isso parece ter sido bem resolvido. Antes, ao rodar claude code no terminal local, era fácil fornecer o contexto necessário, mas se eu fechasse o notebook ou perdesse a conexão, tudo parava.
    Como gambiarra, eu usava o Amphetamine no MacOS para manter o processo rodando mesmo com o aparelho fechado, mas havia problema de aquecimento e desperdício de bateria. Outra opção era clonar o repo em uma instância na nuvem, entrar com tmux e rodar o claude. Ainda assim, a dificuldade de UX para recuperar contexto continuava. Graças ao sandboxing, também dá para esperar um certo nível de segurança, e há formas de executar com permissões de uma conta específica.
    Acho interessante a OpenAI estar pensando em uma UX de Agent que até não desenvolvedores consigam usar

    • A Lightning.ai oferece uma devbox gratuita só com CPU, então rodo Claude code lá
    • Estou rodando tarefas que duram vários minutos sem intervenção no meio
    • Melhor ainda é fazer trabalho de dev em um servidor que não desconecta
  • Usei o OpenAI operator por bastante tempo, mas ultimamente ele está sendo bloqueado no LinkedIn e na Amazon. Esses dois sites eram casos de uso centrais: candidatura a vagas e compras. O Operator era usado de forma relativamente discreta, mas, se o Agent ficar famoso, parece que mais sites vão bloquear. No fim, acho que vão ter que dar suporte à configuração de proxy

    • Acho que esse é realmente o ponto principal. Eu esperava que surgisse um jeito de rodar localmente ou pelo menos configurar um proxy, mas não houve menção a isso. Pela experiência com o destilado Deepseek R1, talvez tenha pesado o cuidado em expor resultados intermediários e know-how. Já no operator do início, muitos sites bloqueavam acesso vindo de IPs de datacenter, e mesmo acoplando hacks manuais com proxy os testes mal funcionavam; no fim, as restrições aumentaram e não houve melhora de desempenho. Hoje isso parece quase inútil. No fim, a menos que fechem parceria com lugares como eastdakota, tentar navegar na web direto do servidor provavelmente não vai significar muita coisa. O irônico é que o "uso de computador" genérico costuma ser bem mais conveniente com arquivos e software locais, e no fim o que o agente remoto faz também acaba sendo baseado em CLI
    • É a estratégia estilo Vale do Silício: joga no mercado primeiro e coleta os efeitos depois. Espero que em breve a OpenAI feche parceria com LinkedIn e Amazon. Na verdade, até imagino o LinkedIn criando uma nova camada paga para acessos via OpenAI
    • Se as pessoas realmente começarem a comprar coisas físicas usando Agent ou operator, acho que sites como a Amazon não terão mais motivo para continuar bloqueando
    • Desenvolvi uma ferramenta parecida, e rodando desktop em proxy residencial dá para contornar a maioria dos bloqueios.
      agenttutor.com
    • Acho que os agents deixarem de respeitar robots.txt está prestes a acontecer. A tendência parece ser o usuário instalar uma extensão de navegador ou até um navegador inteiro para operar com os próprios cookies e IP
  • Na previsão da equipe AI 2027: em meados de 2025 aparecem os "agentes cambaleantes". O primeiro agente de IA é lançado ao público.
    Anúncios de agentes tipo assistente pessoal que usam o computador no seu lugar se multiplicam. Enfatizam prompts como "peça um burrito no DoorDash" e "me diga o total deste mês na planilha de orçamento". A previsão é que, embora seja um avanço em relação ao operator anterior, ainda teria dificuldade para se popularizar

    • Prever algo com apenas 4 meses de antecedência não é tão impressionante assim
    • O ponto central do AI 2027 é a previsão de aceleração exponencial do crescimento tecnológico. Acho que "agente" é só a tecnologia existente da OpenAI reorganizada em um novo frontend. Só no começo de 2026 vai dar para avaliar isso direito
    • Na época em que o relatório foi escrito, já era de conhecimento público que as grandes empresas estavam desenvolvendo produtos de agente. Não é uma previsão inovadora, é mais senso comum
  • Ainda não oferecem aquela função simples que eu queria: edição de documentos dentro do projeto. Eu trabalho com vários documentos por projeto (artigos, pesquisa, roteiros etc.). Quero poder continuar o trabalho com a ajuda do ChatGPT frase por frase. Até imagino algo como, durante uma caminhada, dizer por voz: "onde parei no documento que estava editando agora há pouco? Leia os dois últimos parágrafos... Vou continuar a partir daqui, um pouco mais longo". O suporte para código evolui de forma brilhante, mas a escrita ainda parece presa ao copiar e colar

    • Muitas vezes é irritante ficar repetindo cópia para a área de transferência. Por isso, até abrir o ChatGPT já parece trabalhoso e fico hesitante em usar. Quando você se acostuma com NLE, plugins ou trabalho com timecode, essa quebra no fluxo fica ainda mais incômoda
    • O Aider já conseguia fazer esse tipo de trabalho há muito tempo, até com modelos gratuitos. Mas nos grandes serviços isso não é oferecido nem pagando. Às vezes penso em criar um serviço eu mesmo, mas acabo desistindo porque parece que uma big tech logo vai lançar isso e todo o esforço teria sido em vão
  • Houve muitas tentativas de fornecer um VPS para LLM, mas nesta implementação da OpenAI a UI parece realmente muito forte. Com overlays de texto, um cursor fácil de ler e uma UI personalizada, o usuário entende de relance o andamento e o motivo das ações. Acho muito boa a capacidade do time de UI da OpenAI. É interessante terem adicionado uma nova camada visual à forma de usar LLM, e quero até aproveitar algumas ideias em projetos pessoais.
    Em termos funcionais, não sinto tanta diferença em relação a Claude+XFCE, mas no acabamento visual a OpenAI parece mais conveniente. Já as implementações anteriores sofriam bastante em legibilidade

  • Ainda acho difícil imaginar agentes no nível atual se tornando realmente úteis na minha vida cotidiana. Para planejar uma noite de encontro com minha esposa, seria preciso verificar calendário, recomendar restaurantes conforme preferências, reservar babá e fazer muitas outras coisas direito — e isso exige muita confiança. É empolgante ver essa tecnologia evoluindo aos poucos, mas por enquanto ainda parece algo que só convence em demo. Para funcionar na prática, seria necessária uma integração enorme de sistemas, e espero que Apple ou Microsoft, por estarem em posição de integrar tudo isso, consigam criar agentes realmente úteis

    • Talvez a "lição fundamental da tomada de decisão" seja que as tarefas difíceis da vida na verdade são complicadas menos por processamento de informação e mais por valores e relações humanas. Por exemplo, reservar restaurante é fácil, mas escolher qual restaurante naquele dia é realmente difícil. O LLM lembra onde foi o primeiro encontro? Sabe que a esposa passou mal da última vez que comeu sushi? Esse nível de hiperpersonalização ainda está longe. Até para um concierge humano isso é difícil.
      Acho que planejar a festa de aniversário da filha não é o tipo de tarefa que vai ser resolvida antes de problemas matemáticos difíceis
    • A vantagem desse tipo de agente é parecida com a de ter um assistente pessoal quando você já é muito ocupado, só que muito mais barato. Como um assistente dizendo "que tal esta babá ou este restaurante? Quer que eu reserve?", fazer pedidos por uma única interface de forma natural reduz muito a carga mental. Bastaria dizer "sim, reserva".
      Na minha opinião, o modelo de "execução em uma tacada só" dos agentes está errado do ponto de vista de UX. Em vez de sair pulando entre apps, o essencial para entrar de fato na vida real é uma troca simples e assíncrona, mais parecida com chat, só sobre as partes necessárias
    • Na prática, agents são só o modelo central de chat + prompt de sistema + parsing de resposta e execução de ações + colocar o resultado no próximo prompt + informar ao modelo a lista de ações. Não é uma inovação fundamental, e é simples de construir por conta própria. Acho que o ponto central está no wrapper e no desenho das system instructions. Por exemplo, se você criar um chat guiado que integre calendário, histórico de localização e reserva de babá, já dá para automatizar
    • Acho que o verdadeiro "agente pessoal" ideal é exatamente isso. Foi justamente esse tipo de coisa que a Apple prometeu na WWDC no ano passado, então a decepção foi grande. Mesmo usando Gemini no Pixel 9 pro, ainda falta muito para esse nível de integração. Acima de tudo, confiança ainda é uma grande barreira. LLM responde com confiança excessiva mesmo quando está errado, então me deixa ansioso imaginar algo mandando mensagens por mim ou adicionando pessoas ao meu calendário sem eu saber exatamente o que está fazendo; por isso, ainda hesito em entregar tudo de forma totalmente autônoma
    • Especialmente na área de viagens, isso é útil para obter informação e comparar opções, mas ainda é desconfortável quando entra em conversa personalizada em tempo real sobre minha localização atual, horário, clima, reservas/pagamentos etc. Seria incrível se no futuro evoluísse para um verdadeiro assistente de viagem personalizado (ou até para grupo)
  • O que realmente me impressionou foi a ênfase forte no risco de permitir acesso a credenciais reais de conta e dados sensíveis

    • Também me surpreende que este comentário só apareça tão embaixo. Talvez seja por eu morar fora dos EUA e ter uma perspectiva diferente ao ver isso