GPT-5.5
(openai.com)- Um modelo de tipo agente que planeja sozinho tarefas complexas e combina ferramentas para executá-las até o fim, cobrindo amplamente desde escrita de código e depuração até pesquisa na web, análise de dados, criação de documentos e planilhas e operação de software
- Mantendo a mesma per-token latency do GPT-5.4, teve melhora de desempenho em coding, computer use, trabalho do conhecimento e pesquisa científica inicial, além de ganhar eficiência ao concluir as mesmas tarefas do Codex com menos tokens
- Em engenharia de software, registrou Terminal-Bench 2.0 82,7%, Expert-SWE 73,1% e SWE-Bench Pro 58,6%, mostrando força em implementação, refatoração, depuração, testes, validação e manutenção de contexto em codebases grandes
- Também nos fluxos de trabalho de pesquisa e tarefas gerais, foi reforçado o fluxo que vai de criação de documentos, planilhas e slides ao computer use baseado em manipulação de tela, análise de dados em múltiplas etapas, validação de hipóteses e interpretação de resultados, enquanto o GPT-5.5 Pro mira maior precisão e abrangência
- Antes do lançamento, passou por salvaguardas reforçadas e testes internos e externos, e está sendo liberado gradualmente no ChatGPT e no Codex, com foco em usuários Plus, Pro, Business e Enterprise, parecendo ampliar ainda mais o alcance do uso de IA no trabalho prático
Visão geral do modelo e escopo de distribuição
- O GPT-5.5 é apresentado como um modelo que entende intenções mais rapidamente, planeja por conta própria tarefas compostas por várias etapas e usa ferramentas para levá-las até o fim
- Pode executar escrita e depuração de código, pesquisa na web, análise de dados, criação de documentos e planilhas, operação de software e tarefas que transitam entre várias ferramentas
- Em vez de gerenciar cada etapa minuciosamente, ele foi projetado para receber de uma vez tarefas complexas e desorganizadas e seguir por planejamento, uso de ferramentas, validação e tratamento de ambiguidades
- O avanço em tarefas agentic é especialmente enfatizado, com desempenho forte em coding, computer use, knowledge work e pesquisa científica inicial
- Embora modelos maiores frequentemente fiquem mais lentos, a per-token latency em serviço real foi mantida igual à do GPT-5.4
- A eficiência também aumenta ao concluir as mesmas tarefas do Codex com menos tokens
- Antes do lançamento, foram reforçadas as salvaguardas, incorporando testes internos e externos de red team, avaliações adicionais de capacidades avançadas de cybersecurity e biologia, além do feedback inicial de cerca de 200 parceiros de confiança
- No momento, está sendo distribuído gradualmente para usuários Plus, Pro, Business e Enterprise no ChatGPT e no Codex, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
- A API ainda está atendendo requisitos específicos de segurança, e o GPT-5.5 e o GPT-5.5 Pro devem ser disponibilizados em breve
Engenharia de software e coding agentic
- A OpenAI está construindo uma infraestrutura de agentic AI, e no último ano a IA acelerou bastante a engenharia de software
- Com o GPT-5.5 entrando no Codex e no ChatGPT, essa mudança começa a se expandir para pesquisa científica e tarefas gerais no computador
- Pelo Artificial Analysis Coding Index, ele oferece inteligência de ponta no mesmo nível dos modelos frontier concorrentes, mas com metade do custo
- O GPT-5.5 é apresentado pela OpenAI como seu modelo de agentic coding mais forte
- No Terminal-Bench 2.0, registrou 82,7%, avaliando fluxos de trabalho complexos de linha de comando que exigem planejamento, iteração e combinação de ferramentas
- No SWE-Bench Pro, registrou 58,6% e resolveu de ponta a ponta, em passagem única, mais tarefas do que o modelo anterior em problemas reais do GitHub
- Também superou o GPT-5.4 na avaliação interna Expert-SWE
- Nas três avaliações de coding, obteve pontuação maior usando menos tokens que o GPT-5.4
- Seus pontos fortes no Codex aparecem em implementação, refatoração, depuração, testes e validação
- Ficou mais forte em comportamentos reais de engenharia, como manter o contexto de sistemas grandes, rastrear causas ambíguas de falha, verificar hipóteses com ferramentas e aplicar mudanças ao longo de toda a codebase
Exemplos de uso em coding e testes iniciais
- Um prompt de implementação de app WebGL + Vite com dados reais da Artemis II foi incluído como exemplo
- Usando dados vetoriais NASA/JPL Horizons, ele renderiza as trajetórias de Orion, Lua e Sol
- Uma escala de exibição é aplicada para melhorar a legibilidade
- Testadores iniciais avaliaram que o GPT-5.5 entende melhor a arquitetura do sistema
- Ele identifica com mais precisão o que falhou e por quê, onde a correção deve entrar e que impacto isso terá em outras partes da codebase
- Dan Shipper testou se ele conseguiria recriar o mesmo nível de redesign após reverter uma falha pós-lançamento, e o GPT-5.4 falhou enquanto o GPT-5.5 teve sucesso
- Pietro Schirano fez a mesclagem de uma vez, em cerca de 20 minutos, de um branch com centenas de mudanças de frontend e refatoração em um branch principal que já havia mudado bastante
- Em testes com engenheiros sêniores, seu reasoning e autonomy se destacaram em relação ao GPT-5.4 e ao Claude Opus 4.7
- Mesmo sem prompt explícito, ele antecipa problemas e prevê a necessidade de testes e revisão
- Ao ser solicitado a redesenhar o sistema de comentários de um editor markdown colaborativo, produziu uma pilha de 12 diffs quase concluída
- Foram necessárias menos correções de implementação do que o esperado, e a confiança no planejamento também aumentou em relação ao GPT-5.4
- Na citação de Michael Truell, da Cursor, aparece a característica de sustentar o trabalho por mais tempo, sendo mais adequado para tarefas complexas e de longa duração sem interromper cedo
Trabalho do conhecimento em geral e uso do computador
- Os pontos fortes vistos em coding se estendem diretamente às tarefas cotidianas no computador
- Como entende melhor a intenção, ele executa de forma mais natural todo o processo de buscar informações, selecionar o que é importante, usar ferramentas, validar resultados e transformar insumos brutos em entregáveis úteis
- No Codex, o GPT-5.5 é mais forte que o GPT-5.4 na criação de documentos, planilhas e slides
- Testadores alpha afirmaram que ele supera o modelo anterior em pesquisa operacional, modelagem em planilhas e tarefas de transformar entradas de negócio desorganizadas em planos
- Quando combinado com a capacidade de computer use do Codex, ele pode ver a tela, clicar, digitar, navegar por interfaces e alternar com precisão entre várias ferramentas
- A OpenAI já o utiliza internamente em fluxos de trabalho reais, e atualmente mais de 85% dos funcionários usam o Codex toda semana
- Ele é usado em engenharia de software, finanças, comunicação, marketing, ciência de dados e gestão de produto
- A equipe de comunicação analisou dados de 6 meses de speaking requests para criar um framework de pontuação e risco, validando um agente no Slack que trata automaticamente solicitações de baixo risco e encaminha as de alto risco para revisão humana
- A equipe de finanças revisou 24.771 formulários fiscais K-1, totalizando 71.637 páginas, e adiantou o processo em 2 semanas em relação ao ano anterior com um fluxo de trabalho que exclui informações pessoais
- Na equipe de Go-to-Market, a automação da geração de relatórios semanais de negócios economiza de 5 a 10 horas por semana
GPT-5.5 Thinking e GPT-5.5 Pro no ChatGPT
- O GPT-5.5 Thinking do ChatGPT foi projetado para responder mais rápido a problemas mais difíceis e permite executar tarefas complexas com mais eficiência, com respostas mais inteligentes e concisas
- forte em coding, research, síntese e análise de informações e trabalho centrado em documentos, com vantagem especial no uso de plugins
- O GPT-5.5 Pro mira tarefas mais difíceis e maior qualidade, com menor latência, ampliando sua aplicabilidade prática
- em comparação com o GPT-5.4 Pro, as respostas ficaram mais abrangentes, melhor estruturadas, mais precisas, mais relevantes e mais úteis
- especialmente forte em business, legal, education e data science
- Também apresenta números altos em benchmarks próximos de trabalho profissional
- registrou GDPval 84,9%, OSWorld-Verified 78,7% e Tau2-bench Telecom 98,0%
- o Tau2-bench Telecom foi executado sem prompt tuning
- também são apresentados FinanceAgent 60,0%, internal investment-banking modeling tasks 88,5% e OfficeQA Pro 54,1%
- Em uma citação de Justin Boitano, da NVIDIA, é descrito um fluxo em que o sistema é oferecido sobre o NVIDIA GB200 NVL72, entrega capacidades end-to-end com prompts em linguagem natural, reduz o tempo de debug de dias para horas e transforma experimentos que levariam semanas em execuções feitas da noite para o dia
Fluxo de trabalho de pesquisa científica e tecnológica
- O GPT-5.5 também mostra melhora de desempenho em fluxos de trabalho de pesquisa científica e tecnológica
- vai além de apenas responder perguntas difíceis, sustentando melhor o ciclo de explorar ideias, coletar evidências, verificar hipóteses, interpretar resultados e decidir o próximo experimento
- No GeneBench, mostra melhora clara em relação ao GPT-5.4
- trata-se de uma nova avaliação voltada à análise de dados em múltiplas etapas em genetics e quantitative biology
- lida com dados ambíguos ou com erros, confounders ocultos, falhas de QC e implementação e interpretação de técnicas estatísticas modernas
- as tarefas daqui correspondem a projetos de vários dias até mesmo para especialistas científicos
- No BixBench, também registrou desempenho de liderança entre os modelos com pontuação pública
- é apresentado como um benchmark que reflete bioinformatics e análise de dados do mundo real
- mostra potencial de aceleração em nível de co-scientist na fronteira da biomedical research
- Uma versão interna do GPT-5.5 e um custom harness também foram usados para encontrar uma nova prova sobre Ramsey numbers
- link para a nova prova
- encontrou uma prova sobre um fato assintótico antigo de off-diagonal Ramsey numbers em combinatorics, depois validada com Lean
- contribui não apenas com código ou explicações, mas também com argumentação matemática útil em áreas centrais de pesquisa
- Os testadores iniciais usaram o GPT-5.5 Pro mais como parceiro de pesquisa do que como motor de respostas pontuais
- revisando criticamente manuscritos várias vezes, fazendo stress test de argumentos técnicos, sugerindo análises e trabalhando com o contexto de código, notas e PDFs
- ajuda melhor no fluxo que vai da pergunta ao experimento e aos entregáveis
Casos de pesquisa
- Derya Unutmaz, do Jackson Laboratory for Genomic Medicine, analisou com o GPT-5.5 Pro um dataset de expressão gênica com 62 amostras e cerca de 28.000 genes
- gerou um relatório de pesquisa detalhado, revelando não só o resumo dos resultados, mas também perguntas e insights centrais
- esse trabalho tinha uma escala que levaria meses para sua equipe executar
- Bartosz Naskręcki, da Adam Mickiewicz University, criou com o Codex um app de geometria algébrica em 11 minutos a partir de um único prompt
- visualizou a interseção de duas superfícies quadráticas e converteu a curva resultante em um modelo de Weierstrass
- depois tornou a visualização de singularity mais estável e ainda adicionou exact coefficients reutilizáveis para trabalhos posteriores
- o Codex também ajudou a implementar visualizações matemáticas personalizadas e fluxos de trabalho de computer algebra que antes exigiam ferramentas dedicadas
- Credit: Bartosz Naskręcki
- Em uma citação de Brandon White, da Axiom Bio, é dito que o sistema infere grandes biochemical datasets para prever human drug outcomes, e que houve melhora significativa de precisão na avaliação mais difícil de drug discovery
Infraestrutura de inferência e otimização de desempenho
- Para servir o GPT-5.5 com a mesma latência do GPT-5.4, foi necessário redesenhar a inferência como um sistema integrado, e não como um conjunto de otimizações isoladas
- o GPT-5.5 foi co-projetado, treinado e servido tendo como base os sistemas NVIDIA GB200 e GB300 NVL72
- O Codex e o próprio GPT-5.5 contribuíram diretamente para atingir as metas de desempenho
- o Codex foi usado para transformar ideias rapidamente em implementações mensuráveis por benchmark, esboçar abordagens, conectar experimentos e identificar otimizações que exigiam investimento mais profundo
- o GPT-5.5 ajudou a encontrar e implementar melhorias centrais dentro da stack
- no fim, o modelo também contribuiu para melhorar a infraestrutura que serve a ele mesmo
- Como exemplo representativo de melhoria, o texto apresenta load balancing e partitioning heuristics
- antes, as requisições no accelerator eram divididas em uma quantidade fixa de chunks, fazendo com que pedidos grandes e pequenos rodassem na mesma GPU
- porém, um número estático de chunks não era ideal para todos os padrões de tráfego
- o Codex analisou padrões de production traffic ao longo de várias semanas e escreveu um algoritmo heuristic personalizado para dividir e balancear o trabalho de forma ideal
- com esse trabalho, a token generation speed aumentou mais de 20%
Segurança cibernética e salvaguardas
- Preparar para o mundo um modelo capaz de detectar vulnerabilidades e aplicar patches é algo mais próximo de um esporte coletivo, e a resiliência de todo o ecossistema é necessária para a próxima era da defesa cibernética
- Link relacionado: next era of cyber defense
- As capacidades de cybersecurity dos modelos frontier estão ficando cada vez mais fortes, e como essa capacidade vai se disseminar amplamente, torna-se importante o caminho para usá-la na aceleração da defesa cibernética e no fortalecimento do ecossistema
- O GPT-5.5 é posicionado como um passo gradual, mas importante rumo a uma IA que resolve problemas difíceis como cybersecurity
- No GPT-5.2, foram implantadas de forma preventiva cyber safeguards para limitar possíveis abusos cibernéticos
- No GPT-5.5, foram implantados classificadores mais rigorosos para riscos cibernéticos potenciais, e isso pode ser incômodo para alguns usuários no início
- Há anos a OpenAI trata cybersecurity como uma categoria separada dentro do Preparedness Framework, e vem ajustando iterativamente as medidas de mitigação de acordo com a evolução das capacidades
- Foram implantadas salvaguardas em nível de liderança do setor compatíveis com esse nível de capacidade cyber
- No GPT-5.2, foram introduzidas pela primeira vez salvaguardas específicas para cyber, e desde então elas vêm sendo testadas, refinadas e ampliadas a cada lançamento
- No GPT-5.5, foram reforçadas ainda mais as proteções contra atividades de alto risco, solicitações cyber sensíveis e abuso recorrente
- A abordagem de acesso amplo foi possibilitada por investimentos em segurança do modelo, uso autenticado e monitoramento de uso não permitido
- A robustez foi desenvolvida, testada e aprimorada por vários meses com especialistas externos
- O objetivo é facilitar para desenvolvedores a proteção de código, ao mesmo tempo em que se impõem controles mais fortes sobre fluxos de trabalho cyber que poderiam facilitar danos por agentes maliciosos
- A ampliação do acesso para fins defensivos também avança em paralelo
- Por meio do Trusted Access for Cyber, é oferecido acesso a modelos cyber-permissive, começando pelo Codex
- Para usuários verificados que atendem a determinados trust signals, os recursos avançados de cybersecurity do GPT-5.5 são oferecidos com menos restrições
- Organizações responsáveis pela defesa de infraestrutura crítica podem solicitar acesso a modelos cyber-permissive como o GPT-5.4-Cyber
- O objetivo é oferecer a responsáveis verificados pela defesa ferramentas para trabalho legítimo de segurança com menos fricção
- Link para inscrição: chatgpt.com/cyber
- Isso também inclui cooperação com parceiros governamentais
- Está em andamento a exploração conjunta de como uma IA avançada pode apoiar agentes públicos que defendem infraestrutura crítica, como sistemas digitais para proteger dados fiscais, redes elétricas e o abastecimento de água das comunidades locais
- As capacidades biological/chemical e de cybersecurity do GPT-5.5 são classificadas como High no Preparedness Framework
- Embora não tenha atingido o nível Critical de capacidade de cybersecurity, avaliações e testes confirmaram que suas capacidades cyber estão um nível acima das do GPT-5.4
- Antes do lançamento, o modelo passou por todo o processo de safety and governance
- Isso inclui avaliação de preparedness, testes por área, novas avaliações direcionadas para biology e cybersecurity avançadas, e testes robustos com especialistas externos
- Mais detalhes estão disponíveis no GPT-5.5 system card
- Essa abordagem faz parte da estratégia de AI resilience necessária para a era de modelos mais poderosos
- É necessário disponibilizar IA poderosa também para quem defende sistemas, instituições e o público, e são apresentados como caminhos centrais o acesso baseado em confiança, salvaguardas reforçadas proporcionalmente às capacidades e capacidade operacional para detectar e responder a abusos graves
Planos disponíveis e preços
- No momento, no ChatGPT e no Codex, o GPT-5.5 está sendo disponibilizado para usuários Plus, Pro, Business e Enterprise, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
- No ChatGPT, o GPT-5.5 Thinking é oferecido para Plus, Pro, Business e Enterprise
- O GPT-5.5 Pro mira perguntas mais difíceis e maior precisão, e está disponível em Pro, Business e Enterprise
- No Codex, o GPT-5.5 é oferecido nos planos Plus, Pro, Business, Enterprise, Edu e Go e tem 400K context window
- O Fast mode também é oferecido, com velocidade de geração de tokens 1,5x maior e custo 2,5x maior
- O gpt-5.5 para desenvolvedores de API será disponibilizado em breve na Responses API e na Chat Completions API
- O preço indicado é de US$ 5 por 1M tokens de entrada, US$ 30 por 1M tokens de saída, com 1M context window
- Os preços de Batch e Flex serão metade da tarifa padrão de API, e o Priority processing será oferecido com tarifa 2,5x maior
- O gpt-5.5-pro também será lançado na API, com foco em maior precisão
- Ele está listado a US$ 30 por 1M tokens de entrada e US$ 180 por 1M tokens de saída
- As informações completas de preços estão na pricing page
- O GPT-5.5 é mais caro que o GPT-5.4, mas também oferece mais inteligência e melhor eficiência de tokens
- No Codex, a experiência foi ajustada para que, para a maioria dos usuários, ele entregue resultados melhores que o GPT-5.4 com menos tokens
- O serviço continua oferecendo limites de uso generosos em todos os níveis de assinatura
Benchmarks detalhados
-
Coding
- No SWE-Bench Pro (Public), o GPT-5.5 tem 58.6%, o GPT-5.4 57.7%, o Claude Opus 4.7 64.3% e o Gemini 3.1 Pro 54.2%
- No Terminal-Bench 2.0, o GPT-5.5 tem 82.7%, o GPT-5.4 75.1%, o Claude Opus 4.7 69.4% e o Gemini 3.1 Pro 68.5%
- No Expert-SWE (Internal), são apresentados GPT-5.5 com 73.1% e GPT-5.4 com 68.5%
-
Trabalho especializado
- No GDPval (wins or ties), o GPT-5.5 tem 84.9%, o GPT-5.4 83.0%, o GPT-5.5 Pro 82.3%, o GPT-5.4 Pro 82.0%, o Claude Opus 4.7 80.3% e o Gemini 3.1 Pro 67.3%
- No FinanceAgent v1.1, o GPT-5.5 tem 60.0%, o GPT-5.4 56.0%, o GPT-5.4 Pro 61.5%, o Claude Opus 4.7 64.4% e o Gemini 3.1 Pro 59.7%
- Em Investment Banking Modeling Tasks (Internal), o GPT-5.5 tem 88.5%, o GPT-5.4 87.3%, o GPT-5.5 Pro 88.6% e o GPT-5.4 Pro 83.6%
- No OfficeQA Pro, o GPT-5.5 tem 54.1%, o GPT-5.4 53.2%, o Claude Opus 4.7 43.6% e o Gemini 3.1 Pro 18.1%
-
Uso de computador e visão
- No OSWorld-Verified, o GPT-5.5 tem 78.7%, o GPT-5.4 75.0% e o Claude Opus 4.7 78.0%
- No MMMU Pro (no tools), GPT-5.5 e GPT-5.4 empatam com 81.2%, e o Gemini 3.1 Pro tem 80.5%
- No MMMU Pro (with tools), o GPT-5.5 tem 83.2% e o GPT-5.4 82.1%
-
Uso de ferramentas
- No BrowseComp, o GPT-5.5 tem 84.4%, o GPT-5.4 82.7%, o GPT-5.5 Pro 90.1%, o GPT-5.4 Pro 89.3%, o Claude Opus 4.7 79.3% e o Gemini 3.1 Pro 85.9%
- No MCP Atlas, o GPT-5.5 tem 75.3%, o GPT-5.4 70.6%, o Claude Opus 4.7 79.1% e o Gemini 3.1 Pro 78.2%
- No Toolathlon, o GPT-5.5 tem 55.6%, o GPT-5.4 54.6% e o Gemini 3.1 Pro 48.8%
- No Tau2-bench Telecom, com base no prompt original, o GPT-5.5 tem 98.0% e o GPT-5.4 92.8%
- A anotação do MCP Atlas diz que são resultados após a atualização mais recente de abril de 2026 da Scale AI
- A anotação do Tau2-bench Telecom especifica que os resultados foram avaliados sem prompt adjustment, e que os resultados de prompt adjustment de outros laboratórios foram excluídos
-
Acadêmico
- No GeneBench, o GPT-5.5 tem 25.0%, o GPT-5.4 19.0%, o GPT-5.5 Pro 33.2% e o GPT-5.4 Pro 25.6%
- No FrontierMath Tier 1–3, o GPT-5.5 tem 51.7%, o GPT-5.4 47.6%, o GPT-5.5 Pro 52.4%, o GPT-5.4 Pro 50.0%, o Claude Opus 4.7 43.8% e o Gemini 3.1 Pro 36.9%
- No FrontierMath Tier 4, o GPT-5.5 tem 35.4%, o GPT-5.4 27.1%, o GPT-5.5 Pro 39.6%, o GPT-5.4 Pro 38.0%, o Claude Opus 4.7 22.9% e o Gemini 3.1 Pro 16.7%
- No BixBench, o GPT-5.5 tem 80.5% e o GPT-5.4 74.0%
- No GPQA Diamond, o GPT-5.5 tem 93.6%, o GPT-5.4 92.8%, o GPT-5.4 Pro 94.4%, o Claude Opus 4.7 94.2% e o Gemini 3.1 Pro 94.3%
- No Humanity's Last Exam (no tools), o GPT-5.5 tem 41.4%, o GPT-5.4 39.8%, o GPT-5.5 Pro 43.1%, o GPT-5.4 Pro 42.7%, o Claude Opus 4.7 46.9% e o Gemini 3.1 Pro 44.4%
- No Humanity's Last Exam (with tools), o GPT-5.5 tem 52.2%, o GPT-5.4 52.1%, o GPT-5.5 Pro 57.2%, o GPT-5.4 Pro 58.7%, o Claude Opus 4.7 54.7% e o Gemini 3.1 Pro 51.4%
-
Segurança cibernética
- Em Capture-the-Flags challenge tasks (Internal), o GPT-5.5 tem 88.1% e o GPT-5.4 83.7%
- No CyberGym, o GPT-5.5 tem 81.8%, o GPT-5.4 79.0% e o Claude Opus 4.7 73.1%
- A anotação diz que os resultados ampliam o CTF mais difícil descrito no system card e adicionam mais desafios de alta dificuldade
-
Contexto longo
- No Graphwalks BFS 256k f1, o GPT-5.5 tem 73.7%, o GPT-5.4 62.5% e o Claude Opus 4.7 76.9%
- No Graphwalks BFS 1mil f1, o GPT-5.5 tem 45.4%, o GPT-5.4 9.4% e o Claude Opus 4.6 41.2%
- No Graphwalks parents 256k f1, o GPT-5.5 tem 90.1%, o GPT-5.4 82.8% e o Claude Opus 4.7 93.6%
- No Graphwalks parents 1mil f1, o GPT-5.5 tem 58.5%, o GPT-5.4 44.4% e o Claude Opus 4.6 72.0%
- O OpenAI MRCR v2 8-needle é apresentado por comprimento de contexto, com 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5% e 512K-1M 74.0%
- No mesmo item, o GPT-5.4 tem respectivamente 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5% e 36.6%
- Na faixa de 128K-256K, aparece Claude Opus 4.7 com 59.2%, e na faixa de 512K-1M, Claude Opus 4.7 com 32.2%
-
Raciocínio abstrato
- No ARC-AGI-1 (Verified), o GPT-5.5 tem 95.0%, o GPT-5.4 93.7%, o GPT-5.4 Pro 94.5%, o Claude Opus 4.7 93.5% e o Gemini 3.1 Pro 98.0%
- No ARC-AGI-2 (Verified), o GPT-5.5 tem 85.0%, o GPT-5.4 73.3%, o GPT-5.4 Pro 83.3%, o Claude Opus 4.7 75.8% e o Gemini 3.1 Pro 77.1%
- Especifica-se que as avaliações da família GPT foram realizadas em um ambiente de pesquisa com o reasoning effort definido como xhigh, e que em alguns casos a saída pode diferir ligeiramente do ChatGPT em produção
1 comentários
Comentários do Hacker News
A fala de que, na NVIDIA, perder o acesso ao GPT-5.5 parece perder um braço ou uma perna soou muito mais sinistra do que talvez pretendiam
Parece valer para toda essa dependência de modelos de ponta para programação e, quanto melhor o desempenho, mais rápido a pessoa passa a se apoiar nisso ao programar
Tendo vivido isso na prática, a sensação é bem desconfortável. Agora, em vez de ter paciência para codar tudo na mão, resolver de uma vez com o modelo é algo como 10 vezes mais rápido, e meu papel também mudou
É impressionante conseguir fazer tanta coisa rodar, mas quando os tokens acabam, o trabalho basicamente para
Quando o Claude cai, forçar código na marra rende menos do que sair para caminhar. Se uma hora depois o Claude tiver voltado, dá para avançar mais do que ficando preso no código gerado por LLM e tentando resolver tudo manualmente até se esgotar
Enfim, continuar nesse estado é meio inquietante
O mercado atual parte da premissa de que o trabalho está atomizado e tem pouco poder de barganha, enquanto o capital tem muito mais poder e praticamente define o preço do trabalho
Mas o que acontece se esse trabalho passar a ser fornecido por outra empresa ainda maior, e se esse trabalho, ao contrário do trabalho tradicional, puder ter o fornecimento cortado por tempo indefinido
Agora o trabalho virou outra forma de capital, e capital não precisa comer
Empresas que não usam modelos próprios provavelmente vão aprender isso da forma mais dura
Você constrói mais rápido, escreve menos código diretamente, e a biblioteca cuida do estado interno ou do gerenciamento de memória no seu lugar
Algumas pessoas podem se incomodar em depender de chamadas de biblioteca em vez de mexer diretamente com ponteiros e
malloc(), mas para outras isso é libertador, porque permite focar em arquitetura de mais alto nível sem cair o tempo todo em trocas de contexto de baixo nívelEm vez de pedir respostas prontas, costumo pedir que faça um CLI independente ou alguma ferramenta
Também pergunto como chegou àquelas conclusões, para ampliar minha perspectiva, e peço que explique até seu esquema de classificação em nível de metadados
Especialmente em codebases grandes, onde a dificuldade está mais no tamanho do grafo de referências do que no conceito em si, tento usar isso de um jeito que melhore minha própria capacidade de resolver problemas
Porque, mesmo que os modelos hospedados sumam ou fiquem caros demais, você só perderia essa pequena diferença de desempenho
Claro que nenhuma dessas duas premissas é nem um pouco óbvia, então é mais uma esperança do que outra coisa
E, sinceramente, ainda é difícil acreditar nesse mantra de 10x de produtividade sendo repetido até hoje
O lançamento do GPT-5.5 é hoje, mas a entrada no ChatGPT e no Codex será gradual ao longo de algumas horas
Para manter a estabilidade do serviço, vão liberar por etapas como em lançamentos anteriores, normalmente começando por Pro/Enterprise e depois descendo para Plus
Pode ser que não apareça de imediato, então pedem para checar de novo mais tarde
Esperar aleatoriamente pode ser irritante, mas dizem que é assim por estabilidade
Diz que trabalha na OpenAI
Tentei usar como alternativa depois do OAuthgate da Anthropic, mas ele não conseguia concluir nem subtarefas rápidas, seguras e inofensivas
A conversa virava um ciclo infinito de “eu deveria ter feito X aqui” “verdade, falhei” “então faz agora” “eu devia, mas não fiz”, só pedindo desculpas sem parar
Depois, ver GLM, Kimi e Minimax fazerem isso sem problema algum deixou tudo ainda mais absurdo, então não teve jeito: descartei a OpenAI na hora
Melhor ainda se a interface mostrasse que o modelo existe, mas ainda não foi liberado para a minha conta
Seria perfeito até ter um ETA, embora durante o rollout possam surgir problemas que dificultem prever isso
Queria saber se o Images 2.0 também vai ser liberado dentro do ChatGPT junto, ou se por enquanto continua como recurso exclusivo de API/Playground
Ainda não há acesso oficial via API, mas ultimamente a OpenAI parece estar basicamente tolerando o backdoor da API do Codex usado pelo OpenClaw
https://twitter.com/steipete/status/2046775849769148838 e https://twitter.com/romainhuet/status/2038699202834841962
Esse backdoor de API já inclui o GPT-5.5
Então rodei o exemplo do pelicano, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
usando o novo plugin para LLM https://github.com/simonw/llm-openai-via-codex
Depois, ao aumentar o reasoning effort para xhigh, saiu um pelicano bem melhor
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
Mesmo assim, este é engraçado porque está com as pernas cruzadas
Já estamos na versão 5.5 e ainda não consegue desenhar direito nem um quadro básico de bicicleta
A roda da frente não teria como virar para o lado, mas o desenho erra até isso
Não sei exatamente o que são reasoning tokens, mas, de qualquer forma, a quantidade de tokens parece chocantemente baixa
Pelo que lembro, a Anthropic odiava bastante esse tipo de uso
Até modelos locais de pesos abertos, como o Qwen que postaram ontem, pareciam melhores
Todo mundo só falou do gating do Mythos da Anthropic e do marketing de 83% no CyberGym, mas a OpenAI simplesmente lançou o GPT-5.5 e a pontuação é 82%
O fato de qualquer um poder testar é muito mais importante
Para quem trabalha com cibersegurança ofensiva/defensiva, faz mais sentido mexer diretamente num modelo realmente liberado do que ficar em cima de divulgação exagerada
Nunca pensei que diria isso, mas agora a OpenAI parece novamente a opção mais aberta
Então o pânico no setor de segurança veio da ideia de que restariam só umas duas semanas para bloquear os novos zero-days e, depois disso, poderia começar uma temporada aberta em que black hats encontrariam e explorariam falhas em massa
A Anthropic nunca lançou um modelo aberto, nunca abriu voluntariamente o código-fonte do Claude Code, e nem liberou o tokenizer
A documentação diz até que, se tarefas relacionadas a cibersegurança forem detectadas automaticamente, pode haver fallback para o GPT-5.2
https://developers.openai.com/codex/concepts/cyber-safety
https://chatgpt.com/cyber
A Anthropic me parece quase a personificação do blefe
Depois que li Cialdini, esse tipo de encenação da Anthropic ficou cansativo
Já a OpenAI é muito esperta. Quando o Claude ganhou tração, ela sumiu das manchetes por um tempo, e agora, com sua base gigantesca de usuários, basta acompanhar o ritmo de lançamentos da Anthropic para fazer a rival parecer ridícula
Do ponto de vista da Anthropic, cada nova versão do GPT provavelmente vai tornar a situação ainda mais humilhante, e tudo parece caminhar para a OpenAI dominar completamente
Queria que olhassem a seção de preços/limites de uso desta página
https://developers.openai.com/codex/pricing?codex-usage-limi...
Basta ver a diferença de Local Messages entre 5.3, 5.4 e 5.5
Li a alegação de que o 5.5 é mais eficiente e por isso teria um ponto de equilíbrio parecido com o 5.4, mas, de todo modo, a tendência parece ser de limites mais apertados e preços mais altos
A lição que aparentemente tiraram do caso da Anthropic foi que desenvolvedores passam a depender muito rápido de agentes de programação e até ficam viciados neles, então pagariam qualquer valor mesmo por melhorias pequenas
O protótipo de arena de dungeon 3D feito com Codex e GPT parece bem convincente
Dizem que o Codex cuidou da arquitetura do jogo, da implementação em TypeScript/Three.js, do sistema de combate, dos encontros com inimigos e do feedback da HUD; as texturas do ambiente foram geradas pelo GPT; e os modelos e animações dos personagens vieram de ferramentas terceiras de geração de assets
O motivo de o visual estar bom provavelmente é que o mesh não foi feito diretamente pelo GPT-5.5, mas por outra ferramenta
Isso dá a sensação de que está chegando uma era parecida com a da Flash, em que jogadores ou desenvolvedores hobby conseguem criar rapidamente conceitos de jogo e publicá-los direto na web
Em especial, o Three.js nem é uma engine de jogo, mas está virando praticamente uma ferramenta central para projetar jogos com IA
Olhando só para Three.js, foi o maior salto de uma geração para outra, especialmente em shaders GLSL, e também melhorou na estruturação de cenas divididas em várias páginas/componentes
Criar shaders completos do zero ainda é difícil, mas a capacidade de modificar shaders existentes já está bem útil
No 5.2 e abaixo, ele era realmente ruim no padrão one canvas, multiple page de manter um único canvas de fundo em várias rotas, mas o 5.4, embora ainda precise de alguma orientação, responde muito melhor a prompts de refatoração e otimização
Estou animado para testar como o 5.5 se sai de verdade
Uma visualização de relógio bem esquisita que fiz também dependeu bastante disso
Não é uma engine de jogo, mas para WebGL 3D na web é praticamente o padrão e, por ser antigo, tem uma quantidade enorme de dados de treinamento
Antes dos LLMs, eu dependia mais do Babylon.js, que tem recursos de nível mais alto
Antes o nome era Spielwerk, e é um app para criar e compartilhar jogos no iOS
É tudo baseado na web, então compartilhar é fácil
https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
Não testei com GPT, mas com Claude, por melhor que fosse o prompt engineering, ele não conseguia resolver um cubo mágico, e o Opus 4.6 acertava só uns 70% do quebra-cabeça antes de travar
Como cada tentativa custa 20 dólares, também fica inviável financeiramente
Se fosse possível fazê-los realmente raciocinar em três dimensões, talvez desse para estender essa mesma abordagem a problemas de matemática que hoje eles não conseguem resolver
Estou pensando em publicar meu servidor MCP do Cubo Mágico para desafiar alguém a resolver o cubo só com prompts
Nesta apresentação, a parte mais interessante do que os benchmarks foi que o Codex analisou algumas semanas de padrões reais de tráfego, aumentou a utilização de GPU e escreveu algoritmos heurísticos customizados para divisão e balanceamento de tarefas, elevando a velocidade de geração de tokens em mais de 20%
Essa área em que LLMs agentivos conseguem fazer otimização de eficiência computacional desse tipo tem enorme impacto, mas parece ser menos testada do que benchmarks
Pela minha experiência, o Opus ainda é melhor nisso do que GPT/Codex, mas como a OpenAI está obtendo ganhos práticos ao maximizar esse desempenho sob pressão de custo e capacidade, parece provável que continue empurrando nessa direção
Lembrei daquela antiga otimização famosa do code golf de FizzBuzz da Intel e pedi ao gemini pro, junto com meu código, para sugerir “otimizações inteligentes daquele tipo”, e as sugestões foram realmente excelentes
Os LLMs continuam me surpreendendo todos os dias
E como todas as empresas sabem que otimizar sua infraestrutura e seus modelos é um caminho central para vencer a concorrência, imagino que estejam levando essa parte muito a sério
É bom ir além de benchmarks tradicionais como MMLU, mas citar números assim sem experimentos controlados adequados não ajuda muito
Olhando os números de Mythos vs GPT-5.5, no SWE-bench Pro a diferença ainda é grande, mas no resto parecem bem parecidos
SWE-bench Pro 77,8% vs 58,6%
Terminal-bench-2.0 82,0% vs 82,7%
GPQA Diamond 94,6% vs 93,6%
H. Last Exam 56,8% vs 41,4%
H. Last Exam (tools) 64,7% vs 52,2%
BrowseComp 86,9% vs 84,4%, e no Pro 90,1%
OSWorld-Verified 79,6% vs 78,7%
A fonte dos números do Mythos é https://www.anthropic.com/glasswing
Hoje, ao usar o Opus 4.7, a autonomia parece absurdamente nerfada, e as restrições por causa da suposta segurança são pesadas demais
Então não tenho muita confiança de que ele seja tão incrível na prática quanto a Anthropic anuncia
Está aqui
https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
Peguei as submissões oficiais em https://github.com/SWE-bench/experiments/tree/main/evaluatio..., filtrei só os modelos a partir do Sonnet 4 e somei o resultado nos 500 problemas completos: a taxa de resolução combinada de todos os modelos deu exatamente 93%
Mas o Mythos marcou 93,7%, o que implicaria resolver até problemas que nenhum outro modelo resolveu, e, ao olhar esses casos diretamente, tudo ficou ainda mais suspeito
Os 7% restantes pareciam quase impossíveis de resolver sem ver o patch de teste antes, e a solução real seguia um caminho tão diferente da descrição do problema que parecia até resolver outro problema
Não estou dizendo que o Mythos trapaceou, mas talvez ele memorize tão bem vários estados do repositório que consiga inferir a declaração real do problema só pelo diff armazenado na memória interna
Sem isso, é difícil explicar como ele interpretaria descrições tão ambíguas com tanta precisão
Sempre aparecem resultados estranhos em algum benchmark
Ainda acho decepcionante que a taxa de alucinação continue em 86%
Em comparação, o Opus está em torno de 36%
A fonte é https://artificialanalysis.ai/models?omniscience=omniscience...
Dependendo da pergunta, a alucinação parece até mais perto de 100%, então esse benchmark não bate muito com a intuição
A pessoa que pergunta provavelmente não entende totalmente o problema, então, seja qual for o resultado, parece preferir uma resposta confiante
O objetivo parece ser vender uma impressão de competência mais do que a capacidade real da tecnologia
LLMs podem arruinar um produto, e, se algum bilionário acredita que sua máquina de pensar pode substituir funcionários e por isso decide despejar 75% do orçamento de trabalho nisso, só resta desejar boa sorte no tombo
Esse modelo é muito forte em tarefas de longa duração, e o Codex agora também tem heartbeats, então dá para continuar acompanhando o estado do trabalho
Diz que, se você der um problema difícil que leve horas e tenha restrições verificáveis, vai perceber como ele é bom
Diz que trabalha na OpenAI
Tenho me cansado de outros modelos ultimamente, especialmente o Opus, porque eles vivem parando no meio da tarefa
Parabéns pelo lançamento