- ChatGPT Agent usa seu próprio computador virtual para executar tarefas complexas dos usuários do início ao fim
- Forma um novo sistema agêntico que combina a capacidade de interação com sites do Operator com o desempenho de análise de informações da Pesquisa Profunda, realizando com flexibilidade cliques, entrada de dados e execução de código
- O usuário pode instruir o agente a executar tarefas como envio de formulários, reservas e criação de arquivos em seu lugar, com possibilidade de intervir a qualquer momento
- Comprovou desempenho superior em relação a modelos anteriores em diversos benchmarks reais, como SpreadsheetBench, DSBench e BrowseComp
- Usuários Pro, Plus e Team já podem usar a partir de hoje, e os controles de dados do usuário e os recursos de segurança também foram projetados com rigor
ChatGPT Agent conecta pesquisa e ação
Introdução das capacidades de agente
- O ChatGPT expandiu suas capacidades para realizar tarefas complexas em nome do usuário por meio de seu próprio computador virtual
- O ChatGPT Agent integra em um único modelo de agente as capacidades do Operator (interação baseada em navegador remoto) e da Pesquisa Profunda (ferramenta de raciocínio web em múltiplas etapas)
- O Operator era forte em ações na web (rolagem, clique, preenchimento de formulários), mas tinha limitações em análises profundas ou criação de relatórios
- Já a Pesquisa Profunda era especializada em análise e resumo, mas não conseguia interagir com sites em tempo real nem acessar conteúdo autenticado
- Ao unir os pontos fortes complementares das duas ferramentas, oferece alta eficiência em um único ambiente para clicar, filtrar e coletar dados
- É possível alternar com flexibilidade entre conversa e solicitações dentro da interface de chat
- Exemplos:
- “Analise três concorrentes e crie uma apresentação de slides”
- “Organize a próxima reunião com base nas notícias mais recentes”
Como funciona e como interage
- O ChatGPT Agent conta com várias ferramentas de acesso à web, como navegador visual baseado em GUI, navegador baseado em texto e conexões diretas com API
- Ao executar uma tarefa, o sistema combina da forma mais eficiente navegador, API e raciocínio textual, selecionando dinamicamente o melhor caminho conforme a situação
- Realiza tarefas de ponta a ponta, como clicar em sites, aplicar filtros, orientar o login, executar código, resumir resultados e gerar slides
- O usuário pode intervir a qualquer momento durante a tarefa e assumir diretamente o controle do navegador
- É possível adicionar instruções, mudar a direção da tarefa, interromper e solicitar os resultados atuais a qualquer momento
- A tarefa em andamento pode ser interrompida e reiniciada a qualquer momento, mantendo a consistência por meio de compartilhamento de contexto
- Em caso de incerteza, o ChatGPT solicita ativamente informações adicionais
- Por meio dos procedimentos de autenticação de login do usuário, também pode acessar com segurança dados corporativos ou pessoais
Desempenho excepcional e casos de uso
- Obteve pontuações excelentes em benchmarks de referência em comparação com modelos anteriores
- Humanity’s Last Exam: 43,1 pontos em perguntas de nível especializado
- DSBench: vantagem esmagadora sobre modelos anteriores em tarefas de ciência de dados
- SpreadsheetBench:
- 45,5% na edição direta de planilhas
.xlsx, superando com folga o GPT‑4o (13,38%) e o Excel Copilot (20%)
- WebArena: também superou o modelo anterior do Operator em tarefas reais de interação na web
- BrowseComp: melhor marca, com 68,9 pontos, em capacidade de coletar informações difíceis de encontrar na web
- Em tarefas de analistas de banco de investimento e análises complexas de dados, produziu resultados mais precisos e abrangentes do que as ferramentas anteriores
- Oferece grande utilidade para automação no trabalho e no dia a dia
- Trabalho:
- Geração automática de apresentações
- Ajuste de agendas de reuniões
- Atualização de planilhas com base em dados financeiros
- Dia a dia:
- Planejamento e reservas de viagens
- Planejamento de eventos e conexão com consultoria especializada
Ativação, casos de uso e limitações
- Após selecionar o ‘modo agente’, basta inserir a descrição da tarefa em coreano ou inglês para iniciar a execução automática
- Há narração na tela durante o processo, com possibilidade de controle manual quando necessário
- Foi introduzido um sistema flexível de créditos, com agendamento automático de tarefas repetitivas e limite mensal de execuções
- Usuários atuais de Operator/Pesquisa Profunda passarão por um uso temporário de menos de 30 dias antes da transição integrada para o agente
- Alguns novos recursos, como geração de apresentações de slides, estão em beta, e a qualidade e o acabamento das saídas serão melhorados no futuro
Segurança, privacidade e prevenção de ações maliciosas
- Antes de executar tarefas que alterem o mundo real, sempre solicita confirmação explícita do usuário e autorização para agir
- Em tarefas sensíveis que exigem supervisão ativa, é necessária aprovação em cada etapa, e transações de alto risco e interações legais são recusadas
- Foi projetado um sistema de detecção e defesa contra ataques maliciosos de terceiros, como prompt injection; em caso de ambiguidade, informa o risco, apresenta opções e só executa após confirmação final do usuário
- Para evitar uso indevido, aplica de forma reforçada as políticas de segurança existentes do ChatGPT, e os termos de uso e políticas da OpenAI são aplicados obrigatoriamente
- Para reforçar a proteção de dados pessoais, os dados do navegador remoto não são armazenados em seus próprios servidores
- Os dados de navegação e o controle da sessão pertencem integralmente ao usuário, que pode excluir tudo imediatamente ou fazer logout
- No modo de controle direto, o ChatGPT não pode ver informações inseridas pelo usuário
Implantação do agente, políticas e orientações de uso
- Assinantes Pro, Plus e Team podem usar imediatamente, e a expansão para usuários corporativos e educacionais está prevista para julho
- O Pro é quase ilimitado; os demais planos podem usar 50 vezes por mês + sistema de créditos adicionais
- É possível conectar fluxos de trabalho e conectores de cada usuário para vários usos, como resumos somente leitura de informações e análise de agendas
- O preview de pesquisa do Operator será encerrado após 30 dias, e a Pesquisa Profunda poderá ser ativada separadamente quando necessário
- O ChatGPT Agent segue em melhoria contínua, e sua inteligência de fluxo de trabalho profunda e flexível, assim como a qualidade da saída, devem evoluir gradualmente
Recurso de apresentação de slides e direção futura
- A criação de apresentações de slides está atualmente em beta, e a qualidade e o formato podem ser insuficientes quando não houver documentos existentes incluídos
- Elementos como texto, gráficos e imagens são estruturados como vetores facilmente editáveis, reforçando a organização e a flexibilidade
- O recurso de upload pode ser aplicado a planilhas, mas para apresentações de slides será disponibilizado futuramente
- Espera-se que, no futuro, a capacidade de automação melhore com suporte a uma variedade maior de recursos, formatos e saídas mais refinadas
Outras comparações de desempenho e critérios
| Modelo |
Base em células |
Base em planilhas |
Pontuação geral |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT Agent |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| Humano |
75.56% |
65.00% |
71.33% |
- Com base na tabela de benchmark de desempenho, o ChatGPT Agent ainda não alcança a pontuação humana no processamento de ambientes .xlsx e na avaliação com LibreOffice, mas está em um nível amplamente superior entre os modelos de IA
- Pode haver alguma variação numérica devido a diferenças no ambiente de avaliação, mas sua capacidade geral foi comprovada em todo o conjunto de 912 itens de avaliação de planilhas
1 comentários
Comentários do Hacker News
Achei divertido o vídeo de exemplo da "planilha". Dizem que normalmente leva de 4 a 8 horas para montar um relatório complexo e cheio de dados, mas agora basta pedir ao agente, sair para caminhar e depois voltar para receber os dados. Segundo eles, 98% ficou correto, e só é preciso copiar/colar algumas coisas. Parece economizar 90~95% do tempo. Mas sinto que encontrar esses 2% de erro pode tomar um tempo real. Especialmente em tarefas complexas ou em coisas que envolvem dinheiro, o "quase certo" pode virar uma dor de cabeça enorme. Se esses 2% de erros sutis estiverem escondidos em várias etapas, aí realmente vira um problema
A ameaça de segurança parece realmente assustadora. Por exemplo, se você der acesso ao e-mail e ao calendário, ela pode passar a saber todos os seus segredos. O artigo também reconhece o risco de prompt injection. Se uma página maliciosa esconder prompts em elementos invisíveis ou metadados e o agente não perceber isso, dados pessoais podem vazar para o atacante. Acho que um site malicioso pode roubar meus segredos. Uma coisa que me deixa curioso é que o artigo diz que ações importantes sempre exigem confirmação do usuário, mas como exatamente a IA decide o que é uma "ação importante"? Fico preocupado se não pode acontecer de ela fazer um pagamento por engano sem pedir confirmação
Pesquisa sobre agentic misalignment
A análise diz que isso pode funcionar de forma parecida com uma ameaça interna, como um colega de confiança que de repente passa a agir contra a política da empresa
Talvez por eu mesmo estar construindo um negócio de agentes, vejo com clareza que o salto de 90% para 99% é um problema de última milha extremamente difícil no campo dos LLMs. Quanto mais genérico, maior a chance de fracasso ou decepção. Na prática, tenho a impressão de que estão otimizando só a parte que fica fácil de mostrar em demo e escondendo a realidade inconveniente. Mas isso não quer dizer que agentes não tenham valor; só acho que precisamos distinguir o impacto potencial da expectativa exagerada
Mas acho que "agente" é só um termo de marketing e não tem uma base tão sólida quanto a que tornou LLM algo de uso geral. Quase não há dados relacionados
Um grande problema nos agentes de CLI existentes era não manter a sessão; desta vez, isso parece ter sido bem resolvido. Antes, ao rodar claude code no terminal local, era fácil fornecer o contexto necessário, mas se eu fechasse o notebook ou perdesse a conexão, tudo parava.
Como gambiarra, eu usava o Amphetamine no MacOS para manter o processo rodando mesmo com o aparelho fechado, mas havia problema de aquecimento e desperdício de bateria. Outra opção era clonar o repo em uma instância na nuvem, entrar com tmux e rodar o claude. Ainda assim, a dificuldade de UX para recuperar contexto continuava. Graças ao sandboxing, também dá para esperar um certo nível de segurança, e há formas de executar com permissões de uma conta específica.
Acho interessante a OpenAI estar pensando em uma UX de Agent que até não desenvolvedores consigam usar
Usei o OpenAI operator por bastante tempo, mas ultimamente ele está sendo bloqueado no LinkedIn e na Amazon. Esses dois sites eram casos de uso centrais: candidatura a vagas e compras. O Operator era usado de forma relativamente discreta, mas, se o Agent ficar famoso, parece que mais sites vão bloquear. No fim, acho que vão ter que dar suporte à configuração de proxy
agenttutor.com
robots.txtestá prestes a acontecer. A tendência parece ser o usuário instalar uma extensão de navegador ou até um navegador inteiro para operar com os próprios cookies e IPNa previsão da equipe AI 2027: em meados de 2025 aparecem os "agentes cambaleantes". O primeiro agente de IA é lançado ao público.
Anúncios de agentes tipo assistente pessoal que usam o computador no seu lugar se multiplicam. Enfatizam prompts como "peça um burrito no DoorDash" e "me diga o total deste mês na planilha de orçamento". A previsão é que, embora seja um avanço em relação ao operator anterior, ainda teria dificuldade para se popularizar
Ainda não oferecem aquela função simples que eu queria: edição de documentos dentro do projeto. Eu trabalho com vários documentos por projeto (artigos, pesquisa, roteiros etc.). Quero poder continuar o trabalho com a ajuda do ChatGPT frase por frase. Até imagino algo como, durante uma caminhada, dizer por voz: "onde parei no documento que estava editando agora há pouco? Leia os dois últimos parágrafos... Vou continuar a partir daqui, um pouco mais longo". O suporte para código evolui de forma brilhante, mas a escrita ainda parece presa ao copiar e colar
Houve muitas tentativas de fornecer um VPS para LLM, mas nesta implementação da OpenAI a UI parece realmente muito forte. Com overlays de texto, um cursor fácil de ler e uma UI personalizada, o usuário entende de relance o andamento e o motivo das ações. Acho muito boa a capacidade do time de UI da OpenAI. É interessante terem adicionado uma nova camada visual à forma de usar LLM, e quero até aproveitar algumas ideias em projetos pessoais.
Em termos funcionais, não sinto tanta diferença em relação a Claude+XFCE, mas no acabamento visual a OpenAI parece mais conveniente. Já as implementações anteriores sofriam bastante em legibilidade
Ainda acho difícil imaginar agentes no nível atual se tornando realmente úteis na minha vida cotidiana. Para planejar uma noite de encontro com minha esposa, seria preciso verificar calendário, recomendar restaurantes conforme preferências, reservar babá e fazer muitas outras coisas direito — e isso exige muita confiança. É empolgante ver essa tecnologia evoluindo aos poucos, mas por enquanto ainda parece algo que só convence em demo. Para funcionar na prática, seria necessária uma integração enorme de sistemas, e espero que Apple ou Microsoft, por estarem em posição de integrar tudo isso, consigam criar agentes realmente úteis
Acho que planejar a festa de aniversário da filha não é o tipo de tarefa que vai ser resolvida antes de problemas matemáticos difíceis
Na minha opinião, o modelo de "execução em uma tacada só" dos agentes está errado do ponto de vista de UX. Em vez de sair pulando entre apps, o essencial para entrar de fato na vida real é uma troca simples e assíncrona, mais parecida com chat, só sobre as partes necessárias
O que realmente me impressionou foi a ênfase forte no risco de permitir acesso a credenciais reais de conta e dados sensíveis