Lançamento do GPT-5.5
(openai.com)- Um modelo de perfil agente, capaz de planejar tarefas complexas por conta própria e combinar ferramentas para executá-las até o fim, cobrindo uma ampla gama de atividades, de escrita de código e depuração a pesquisa na web, análise de dados, criação de documentos e planilhas e operação de software
- Mantendo a mesma per-token latency do GPT-5.4, apresentou melhora em coding, computer use, trabalho do conhecimento e pesquisa científica inicial, além de concluir as mesmas tarefas do Codex com menos tokens, aumentando também a eficiência
- Em engenharia de software, registrou 82,7% no Terminal-Bench 2.0, 73,1% no Expert-SWE e 58,6% no SWE-Bench Pro, com pontos fortes em implementação, refatoração, depuração, testes, validação e manutenção de contexto em grandes codebases
- Também fortaleceu o fluxo de trabalho em tarefas gerais e de pesquisa, desde a criação de documentos, planilhas e slides até computer use baseado em manipulação de tela, análise de dados em múltiplas etapas, validação de hipóteses e interpretação de resultados, enquanto o GPT-5.5 Pro mira maior precisão e abrangência
- Antes do lançamento, passou por salvaguardas reforçadas e testes internos e externos, e está sendo distribuído gradualmente no ChatGPT e no Codex com foco em usuários Plus, Pro, Business e Enterprise, ampliando o alcance do uso prático de IA
Visão geral do modelo e escopo de distribuição
- O GPT-5.5 é apresentado como um modelo que entende intenções mais rapidamente, planeja por conta própria tarefas com várias etapas interligadas e usa ferramentas para levá-las até o fim
- Pode realizar escrita de código e depuração, pesquisa na web, análise de dados, criação de documentos e planilhas, operação de software e tarefas que transitam entre várias ferramentas
- Em vez de exigir controle minucioso de cada etapa, foi projetado para receber de uma vez tarefas complexas e desorganizadas e seguir com planejamento, uso de ferramentas, validação e tratamento de ambiguidades
- O avanço em tarefas agentic é especialmente enfatizado, com desempenho forte em coding, computer use, knowledge work e pesquisa científica inicial
- Embora modelos maiores muitas vezes fiquem mais lentos, a per-token latency em serviço real foi mantida igual à do GPT-5.4
- A eficiência também aumentou ao concluir as mesmas tarefas do Codex com menos tokens
- Antes do lançamento, foram reforçadas as salvaguardas, incorporando testes internos e externos de red team, avaliações adicionais de capacidades avançadas em cybersecurity e biologia, além de feedback inicial de cerca de 200 parceiros de confiança
- No momento, está sendo distribuído gradualmente no ChatGPT e no Codex para usuários Plus, Pro, Business e Enterprise, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
- A API ainda está atendendo requisitos adicionais de segurança e deve oferecer o GPT-5.5 e o GPT-5.5 Pro em breve
Engenharia de software e coding de perfil agente
- A OpenAI está construindo uma infraestrutura de agentic AI, e no último ano a IA acelerou significativamente a engenharia de software
- Com a chegada do GPT-5.5 ao Codex e ao ChatGPT, essa mudança começa a se expandir para pesquisa científica e tarefas gerais no computador
- Segundo o Artificial Analysis Coding Index, entrega inteligência de topo pela metade do custo em comparação com modelos frontier concorrentes de coding
- O GPT-5.5 é apresentado pela OpenAI como seu modelo de agentic coding mais forte
- Obteve 82,7% no Terminal-Bench 2.0, que avalia fluxos complexos de trabalho em linha de comando que exigem planejamento, iteração e combinação de ferramentas
- No SWE-Bench Pro, alcançou 58,6% e resolveu ponta a ponta, em uma única passagem, mais tarefas do que o modelo anterior em problemas reais do GitHub
- Também superou o GPT-5.4 no Expert-SWE, avaliação interna da empresa
- Nas três avaliações de coding, obteve pontuações mais altas usando menos tokens que o GPT-5.4
- No Codex, seus pontos fortes aparecem em implementação, refatoração, depuração, testes e validação
- Ficou mais forte em comportamentos reais de engenharia, como manter o contexto de sistemas grandes, rastrear causas ambíguas de falha, confirmar hipóteses com ferramentas e refletir mudanças em toda a codebase
Exemplos de uso em coding e testes iniciais
- Foi incluído como exemplo um prompt de implementação de um app WebGL + Vite usando dados reais da Artemis II
- Usa dados vetoriais do NASA/JPL Horizons para renderizar as trajetórias de Orion, Moon e Sun
- Aplica uma escala de exibição para melhorar a legibilidade
- Testadores iniciais avaliaram que o GPT-5.5 entende melhor a estrutura do sistema
- Identifica com mais precisão o que falhou e por quê, onde a correção deve entrar e que impacto isso terá em outras partes da codebase
- Dan Shipper testou se seria possível reverter uma falha após o lançamento e recriar uma reformulação no mesmo nível, e o GPT-5.4 falhou, enquanto o GPT-5.5 teve sucesso
- Pietro Schirano fez a mesclagem de uma só vez em cerca de 20 minutos de um branch com centenas de alterações de frontend e refactor em um branch principal bastante modificado
- Em testes com engenheiros seniores, destacou-se em reasoning e autonomy em relação ao GPT-5.4 e ao Claude Opus 4.7
- Mesmo sem prompt explícito, antecipa problemas e até prevê a necessidade de testes e revisão
- Ao receber o pedido de redesenhar o sistema de comentários de um editor markdown colaborativo, entregou uma pilha de 12 diffs quase pronta
- Foram necessárias menos correções de implementação do que o esperado, e a confiança no plano também ficou acima da do GPT-5.4
- Na citação de Michael Truell, da Cursor, aparece a característica de sustentar o trabalho por mais tempo, adequando-se melhor a tarefas complexas e de longa duração sem interromper cedo demais
Trabalho do conhecimento em geral e uso do computador
- Os pontos fortes vistos em coding se estendem diretamente ao trabalho cotidiano no computador
- Como entende melhor a intenção, executa de forma mais natural todo o processo de buscar informações, selecionar o que é importante, usar ferramentas, validar resultados e transformar material bruto em entregáveis úteis
- No Codex, o GPT-5.5 é mais forte que o GPT-5.4 na criação de documentos, planilhas e slides
- Testadores alpha afirmaram que ele supera o modelo anterior em pesquisa operacional, modelagem de planilhas e transformação de insumos de negócio desorganizados em planos
- Em combinação com a capacidade de computer use do Codex, consegue ver a tela, clicar, digitar, navegar por interfaces e alternar com precisão entre várias ferramentas
- A OpenAI já o utiliza internamente em fluxos de trabalho reais, e atualmente mais de 85% dos funcionários usam o Codex semanalmente
- Ele é aplicado em engenharia de software, finanças, comunicação, marketing, ciência de dados e gestão de produto
- A equipe de comunicação analisou dados de seis meses de speaking requests para criar um framework de pontuação e risco, além de validar um agente no Slack que processa automaticamente solicitações de baixo risco e encaminha as de alto risco para revisão humana
- A equipe de Finance revisou 24.771 formulários fiscais K-1, totalizando 71.637 páginas, e adiantou o trabalho em duas semanas em relação ao ano anterior por meio de um fluxo que exclui informações pessoais
- Na equipe de Go-to-Market, a automação da geração de relatórios semanais de negócios economiza de 5 a 10 horas por semana
GPT-5.5 Thinking e GPT-5.5 Pro no ChatGPT
- O GPT-5.5 Thinking do ChatGPT foi projetado para responder mais rápido a problemas mais difíceis, permitindo executar tarefas complexas com mais eficiência por meio de respostas mais inteligentes e concisas
- é forte em coding, research, síntese e análise de informações e trabalho centrado em documentos, sendo especialmente vantajoso ao usar plugins
- O GPT-5.5 Pro mira tarefas mais difíceis e qualidade mais alta, com menor latência e maior aplicabilidade em contextos reais
- em comparação com o GPT-5.4 Pro, as respostas ficaram mais abrangentes, melhor estruturadas, mais precisas, mais relevantes e mais úteis
- é especialmente forte em business, legal, education e data science
- Também apresenta números altos em benchmarks próximos de trabalho profissional
- registrou 84.9% no GDPval, 78.7% no OSWorld-Verified e 98.0% no Tau2-bench Telecom
- o Tau2-bench Telecom foi realizado sem prompt tuning
- também foram apresentados 60.0% no FinanceAgent, 88.5% em internal investment-banking modeling tasks e 54.1% no OfficeQA Pro
- Na citação de Justin Boitano, da NVIDIA, é apresentado um fluxo em que o sistema é fornecido sobre o NVIDIA GB200 NVL72, entrega funcionalidades end-to-end com prompts em linguagem natural, reduz o tempo de debug de dias para horas e transforma experimentos que levariam semanas em execuções durante a noite
Fluxo de trabalho de pesquisa científica e tecnológica
- O GPT-5.5 também mostra melhora de desempenho em fluxos de trabalho de pesquisa científica e tecnológica
- vai além de responder perguntas difíceis e sustenta melhor o ciclo de explorar ideias, reunir evidências, validar hipóteses, interpretar resultados e decidir o próximo experimento
- No GeneBench, mostra melhora clara em relação ao GPT-5.4
- é uma nova avaliação voltada para análise de dados em múltiplas etapas em genetics e quantitative biology
- lida com dados ambíguos ou com erros, confounders ocultos, falhas de QC e implementação e interpretação de técnicas estatísticas modernas
- as tarefas aqui correspondem a projetos de vários dias até mesmo para especialistas científicos
- Também registrou desempenho de liderança entre os modelos com pontuação pública no BixBench
- é apresentado como um benchmark que reflete bioinformatics e análise de dados do mundo real
- mostra potencial de aceleração em nível de co-scientist na fronteira da biomedical research
- Uma versão interna do GPT-5.5 e um harness customizado também foram usados para encontrar uma nova prova sobre Ramsey numbers
- Link para a nova prova
- encontrou uma prova sobre um fato assintótico em antigos off-diagonal Ramsey numbers da combinatorics, posteriormente verificada em Lean
- contribuiu não só com código ou explicações, mas também com argumentos matemáticos úteis em áreas centrais de pesquisa
- Os primeiros testers usaram o GPT-5.5 Pro mais como parceiro de pesquisa do que como mecanismo de resposta pontual
- revisando criticamente manuscritos várias vezes, fazendo stress test de argumentos técnicos, sugerindo análises e trabalhando com contexto de código, notas e PDFs
- ajuda melhor no fluxo que vai da pergunta ao experimento e aos resultados
Casos de pesquisa
- Derya Unutmaz, do Jackson Laboratory for Genomic Medicine, analisou com o GPT-5.5 Pro um dataset de expressão gênica com 62 amostras e cerca de 28.000 genes
- gerou um relatório de pesquisa detalhado, revelando não só o resumo dos resultados, mas também perguntas centrais e insights
- esse trabalho teria uma escala de meses se fosse realizado por sua equipe
- Bartosz Naskręcki, da Adam Mickiewicz University, criou com o Codex um app de algebraic geometry em 11 minutos a partir de um único prompt
- visualizou a interseção de duas quadratic surfaces e converteu a curva resultante para um modelo de Weierstrass
- depois tornou a visualização de singularity mais estável e adicionou exact coefficients reutilizáveis para trabalhos posteriores
- o Codex também ajudou na implementação de visualização matemática personalizada e de workflows de computer algebra que antes exigiam ferramentas dedicadas
- Credit: Bartosz Naskręcki
- Na citação de Brandon White, da Axiom Bio, o modelo raciocina sobre um enorme biochemical dataset para prever human drug outcomes, mostrando ganho significativo de precisão nas avaliações mais difíceis de drug discovery
Infraestrutura de inferência e otimização de desempenho
- Para servir o GPT-5.5 com a mesma latência do GPT-5.4, foi necessário redesenhar a inferência como um sistema integrado, e não como um conjunto de otimizações isoladas
- o GPT-5.5 foi co-projetado, treinado e servido tendo como base os sistemas NVIDIA GB200 e GB300 NVL72
- O Codex e o próprio GPT-5.5 contribuíram diretamente para atingir as metas de desempenho
- o Codex foi usado para transformar rapidamente ideias em implementações mensuráveis por benchmark, esboçar abordagens, conectar experimentos e identificar otimizações que exigiam investimento mais profundo
- o GPT-5.5 ajudou a identificar e implementar melhorias centrais dentro da stack
- no fim, o modelo também contribuiu para melhorar a infraestrutura que serve a si mesmo
- Como exemplo representativo de melhoria, são apresentados load balancing e partitioning heuristics
- antes, as requisições no accelerator eram divididas em um número fixo de chunks, fazendo com que requisições grandes e pequenas rodassem na mesma GPU
- porém, um número estático de chunks não era ideal para todos os padrões de tráfego
- o Codex analisou padrões de production traffic ao longo de várias semanas e escreveu um algoritmo heuristic customizado para particionar e balancear as tarefas de forma ideal
- com esse trabalho, a token generation speed aumentou mais de 20%
Cibersegurança e salvaguardas
- Preparar para o mundo modelos capazes de detectar vulnerabilidades e aplicar patches é algo mais próximo de um esporte coletivo, e é necessária a resiliência de todo o ecossistema para a próxima era da defesa cibernética
- Link relacionado: next era of cyber defense
- As capacidades de cybersecurity dos modelos de fronteira estão ficando cada vez mais fortes, e como essa capacidade vai se disseminar amplamente, torna-se importante o caminho para usá-la na aceleração da defesa cibernética e no fortalecimento do ecossistema
- O GPT-5.5 é posicionado como um passo gradual, mas importante rumo a uma IA que resolve problemas difíceis como cybersecurity
- No GPT-5.2, foram implantadas de forma preventiva cyber safeguards para limitar o potencial uso indevido em cyber
- No GPT-5.5, foram implantados classifiers mais rigorosos para potenciais cyber risks, o que no início pode incomodar alguns usuários
- A OpenAI tratou cybersecurity como uma categoria separada dentro do Preparedness Framework por vários anos, e vem ajustando iterativamente as medidas de mitigação conforme as capacidades evoluem
- Foram implantadas salvaguardas em nível líder do setor de acordo com esse nível de capacidade cyber
- O GPT-5.2 introduziu pela primeira vez uma salvaguarda específica para cyber, e desde então ela vem sendo testada, refinada e ampliada a cada lançamento
- No GPT-5.5, a proteção contra atividades de alto risco, solicitações cyber sensíveis e abuso repetido foi ainda mais reforçada
- A abordagem de acesso amplo foi possibilitada por investimentos em segurança do modelo, uso autenticado e monitoramento de usos não permitidos
- A robustez foi desenvolvida, testada e aprimorada durante vários meses com especialistas externos
- Ao mesmo tempo em que facilita para desenvolvedores protegerem seu código, aplica controles mais fortes a fluxos de trabalho cyber que possam facilitar danos por agentes maliciosos
- A expansão do acesso para fins defensivos também avança em paralelo
- Por meio do Trusted Access for Cyber, é oferecido acesso a modelos cyber-permissive, com o Codex como ponto de partida
- Para usuários verificados que atendem a determinados trust signals, os recursos avançados de cybersecurity do GPT-5.5 são oferecidos com menos restrições
- Organizações responsáveis pela defesa de critical infrastructure podem solicitar acesso a modelos cyber-permissive como o GPT-5.4-Cyber
- O objetivo é fornecer a responsáveis verificados pela defesa ferramentas para trabalho legítimo de segurança com menos atrito
- Link para inscrição: chatgpt.com/cyber
- Isso também inclui cooperação com parceiros governamentais
- Estão explorando em conjunto como uma IA avançada pode apoiar agentes públicos que defendem infraestruturas críticas, como sistemas digitais de proteção de dados fiscais, redes elétricas e o abastecimento de água das comunidades locais
- As capacidades biological/chemical e de cybersecurity do GPT-5.5 são classificadas como High no Preparedness Framework
- Embora não tenha alcançado o nível Critical de cybersecurity capability, avaliações e testes confirmaram uma capacidade cyber um nível acima da do GPT-5.4
- Antes do lançamento, passou por todo o processo de safety and governance
- Isso incluiu avaliações de preparedness, testes por área, novas avaliações direcionadas para biology e cybersecurity avançadas e testes robustos com especialistas externos
- Mais detalhes estão disponíveis no GPT-5.5 system card
- Essa abordagem faz parte da estratégia de AI resilience necessária na era de modelos mais poderosos
- Também é preciso disponibilizar IA poderosa para quem defende sistemas, instituições e o público, e acesso baseado em confiança, safeguards reforçadas proporcionalmente à capacidade e capacidade operacional para detectar e responder a abusos graves são apresentados como caminhos centrais
Planos disponíveis e preços
- Atualmente, no ChatGPT e no Codex, o GPT-5.5 está sendo disponibilizado para usuários Plus, Pro, Business e Enterprise, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
- No ChatGPT, o GPT-5.5 Thinking é oferecido para Plus, Pro, Business e Enterprise
- O GPT-5.5 Pro mira perguntas mais difíceis e maior precisão, e está disponível em Pro, Business e Enterprise
- No Codex, o GPT-5.5 é oferecido nos planos Plus, Pro, Business, Enterprise, Edu e Go, e conta com 400K context window
- O Fast mode também é oferecido, com velocidade de geração de tokens 1,5 vez maior e custo 2,5 vezes maior
- O gpt-5.5 para desenvolvedores de API será disponibilizado em breve nas APIs Responses e Chat Completions
- Está listado com US$ 5 por 1M tokens de entrada, US$ 30 por 1M tokens de saída e 1M context window
- Os preços de Batch e Flex são metade da tarifa padrão da API, e o Priority processing é oferecido com tarifa 2,5 vezes maior
- O gpt-5.5-pro também será lançado na API e mira maior precisão
- Está listado com US$ 30 por 1M tokens de entrada e US$ 180 por 1M tokens de saída
- As informações completas de preço estão na pricing page
- O GPT-5.5 é mais caro que o GPT-5.4, mas também tem maior inteligência e melhor eficiência de tokens
- No Codex, a experiência foi ajustada para que, para a maioria dos usuários, ele entregue resultados melhores com menos tokens do que o GPT-5.4
- Continua oferecendo uso generoso em todos os níveis de assinatura
Benchmarks detalhados
-
Coding
- No SWE-Bench Pro (Public), o GPT-5.5 obteve 58,6%, o GPT-5.4 57,7%, o Claude Opus 4.7 64,3% e o Gemini 3.1 Pro 54,2%
- No Terminal-Bench 2.0, o GPT-5.5 marcou 82,7%, o GPT-5.4 75,1%, o Claude Opus 4.7 69,4% e o Gemini 3.1 Pro 68,5%
- No Expert-SWE (Internal), foram apresentados GPT-5.5 com 73,1% e GPT-5.4 com 68,5%
-
Trabalho profissional
- No GDPval (wins or ties), o GPT-5.5 marcou 84,9%, o GPT-5.4 83,0%, o GPT-5.5 Pro 82,3%, o GPT-5.4 Pro 82,0%, o Claude Opus 4.7 80,3% e o Gemini 3.1 Pro 67,3%
- No FinanceAgent v1.1, o GPT-5.5 marcou 60,0%, o GPT-5.4 56,0%, o GPT-5.4 Pro 61,5%, o Claude Opus 4.7 64,4% e o Gemini 3.1 Pro 59,7%
- Em Investment Banking Modeling Tasks (Internal), o GPT-5.5 marcou 88,5%, o GPT-5.4 87,3%, o GPT-5.5 Pro 88,6% e o GPT-5.4 Pro 83,6%
- No OfficeQA Pro, o GPT-5.5 marcou 54,1%, o GPT-5.4 53,2%, o Claude Opus 4.7 43,6% e o Gemini 3.1 Pro 18,1%
-
Uso de computador e visão
- No OSWorld-Verified, o GPT-5.5 marcou 78,7%, o GPT-5.4 75,0% e o Claude Opus 4.7 78,0%
- No MMMU Pro (no tools), GPT-5.5 e GPT-5.4 ficaram empatados com 81,2%, e o Gemini 3.1 Pro marcou 80,5%
- No MMMU Pro (with tools), o GPT-5.5 marcou 83,2% e o GPT-5.4 82,1%
-
Uso de ferramentas
- No BrowseComp, o GPT-5.5 marcou 84,4%, o GPT-5.4 82,7%, o GPT-5.5 Pro 90,1%, o GPT-5.4 Pro 89,3%, o Claude Opus 4.7 79,3% e o Gemini 3.1 Pro 85,9%
- No MCP Atlas, o GPT-5.5 marcou 75,3%, o GPT-5.4 70,6%, o Claude Opus 4.7 79,1% e o Gemini 3.1 Pro 78,2%
- No Toolathlon, o GPT-5.5 marcou 55,6%, o GPT-5.4 54,6% e o Gemini 3.1 Pro 48,8%
- No Tau2-bench Telecom, com base no prompt original, o GPT-5.5 marcou 98,0% e o GPT-5.4 92,8%
- A anotação do MCP Atlas informa que os resultados são após a atualização mais recente de abril de 2026 da Scale AI
- A anotação do Tau2-bench Telecom especifica que os resultados foram avaliados sem prompt adjustment, e que os resultados de prompt adjustment de outros laboratórios foram excluídos
-
Acadêmico
- No GeneBench, o GPT-5.5 marcou 25,0%, o GPT-5.4 19,0%, o GPT-5.5 Pro 33,2% e o GPT-5.4 Pro 25,6%
- No FrontierMath Tier 1–3, o GPT-5.5 marcou 51,7%, o GPT-5.4 47,6%, o GPT-5.5 Pro 52,4%, o GPT-5.4 Pro 50,0%, o Claude Opus 4.7 43,8% e o Gemini 3.1 Pro 36,9%
- No FrontierMath Tier 4, o GPT-5.5 marcou 35,4%, o GPT-5.4 27,1%, o GPT-5.5 Pro 39,6%, o GPT-5.4 Pro 38,0%, o Claude Opus 4.7 22,9% e o Gemini 3.1 Pro 16,7%
- No BixBench, o GPT-5.5 marcou 80,5% e o GPT-5.4 74,0%
- No GPQA Diamond, o GPT-5.5 marcou 93,6%, o GPT-5.4 92,8%, o GPT-5.4 Pro 94,4%, o Claude Opus 4.7 94,2% e o Gemini 3.1 Pro 94,3%
- No Humanity's Last Exam (no tools), o GPT-5.5 marcou 41,4%, o GPT-5.4 39,8%, o GPT-5.5 Pro 43,1%, o GPT-5.4 Pro 42,7%, o Claude Opus 4.7 46,9% e o Gemini 3.1 Pro 44,4%
- No Humanity's Last Exam (with tools), o GPT-5.5 marcou 52,2%, o GPT-5.4 52,1%, o GPT-5.5 Pro 57,2%, o GPT-5.4 Pro 58,7%, o Claude Opus 4.7 54,7% e o Gemini 3.1 Pro 51,4%
-
Segurança cibernética
- Em Capture-the-Flags challenge tasks (Internal), o GPT-5.5 marcou 88,1% e o GPT-5.4 83,7%
- No CyberGym, o GPT-5.5 marcou 81,8%, o GPT-5.4 79,0% e o Claude Opus 4.7 73,1%
- A anotação informa que os resultados expandem o CTF mais difícil descrito no system card e adicionam desafios extras de alta dificuldade
-
Contexto longo
- No Graphwalks BFS 256k f1, o GPT-5.5 marcou 73,7%, o GPT-5.4 62,5% e o Claude Opus 4.7 76,9%
- No Graphwalks BFS 1mil f1, o GPT-5.5 marcou 45,4%, o GPT-5.4 9,4% e o Claude Opus 4.6 41,2%
- No Graphwalks parents 256k f1, o GPT-5.5 marcou 90,1%, o GPT-5.4 82,8% e o Claude Opus 4.7 93,6%
- No Graphwalks parents 1mil f1, o GPT-5.5 marcou 58,5%, o GPT-5.4 44,4% e o Claude Opus 4.6 72,0%
- O OpenAI MRCR v2 8-needle é apresentado por comprimento de contexto, com 4K-8K 98,1%, 8K-16K 93,0%, 16K-32K 96,5%, 32K-64K 90,0%, 64K-128K 83,1%, 128K-256K 87,5%, 256K-512K 81,5% e 512K-1M 74,0%
- No mesmo item, o GPT-5.4 registra respectivamente 97,3%, 91,4%, 97,2%, 90,5%, 86,0%, 79,3%, 57,5% e 36,6%
- No intervalo 128K-256K aparece Claude Opus 4.7 com 59,2%, e no intervalo 512K-1M aparece Claude Opus 4.7 com 32,2%
-
Raciocínio abstrato
- No ARC-AGI-1 (Verified), o GPT-5.5 marcou 95,0%, o GPT-5.4 93,7%, o GPT-5.4 Pro 94,5%, o Claude Opus 4.7 93,5% e o Gemini 3.1 Pro 98,0%
- No ARC-AGI-2 (Verified), o GPT-5.5 marcou 85,0%, o GPT-5.4 73,3%, o GPT-5.4 Pro 83,3%, o Claude Opus 4.7 75,8% e o Gemini 3.1 Pro 77,1%
- É informado que as avaliações da linha GPT foram realizadas em um ambiente de pesquisa com reasoning effort definido como xhigh, e que em alguns casos a saída pode diferir ligeiramente do ChatGPT em produção
1 comentários
Comentários do Hacker News
A fala de que, na NVIDIA, perder o acesso ao GPT-5.5 parece perder um braço ou uma perna soou muito mais sinistra do que talvez pretendiam
Parece valer para toda essa dependência de modelos de ponta para programação e, quanto melhor o desempenho, mais rápido a pessoa passa a se apoiar nisso ao programar
Tendo vivido isso na prática, a sensação é bem desconfortável. Agora, em vez de ter paciência para codar tudo na mão, resolver de uma vez com o modelo é algo como 10 vezes mais rápido, e meu papel também mudou
É impressionante conseguir fazer tanta coisa rodar, mas quando os tokens acabam, o trabalho basicamente para
Quando o Claude cai, forçar código na marra rende menos do que sair para caminhar. Se uma hora depois o Claude tiver voltado, dá para avançar mais do que ficando preso no código gerado por LLM e tentando resolver tudo manualmente até se esgotar
Enfim, continuar nesse estado é meio inquietante
O mercado atual parte da premissa de que o trabalho está atomizado e tem pouco poder de barganha, enquanto o capital tem muito mais poder e praticamente define o preço do trabalho
Mas o que acontece se esse trabalho passar a ser fornecido por outra empresa ainda maior, e se esse trabalho, ao contrário do trabalho tradicional, puder ter o fornecimento cortado por tempo indefinido
Agora o trabalho virou outra forma de capital, e capital não precisa comer
Empresas que não usam modelos próprios provavelmente vão aprender isso da forma mais dura
Você constrói mais rápido, escreve menos código diretamente, e a biblioteca cuida do estado interno ou do gerenciamento de memória no seu lugar
Algumas pessoas podem se incomodar em depender de chamadas de biblioteca em vez de mexer diretamente com ponteiros e
malloc(), mas para outras isso é libertador, porque permite focar em arquitetura de mais alto nível sem cair o tempo todo em trocas de contexto de baixo nívelEm vez de pedir respostas prontas, costumo pedir que faça um CLI independente ou alguma ferramenta
Também pergunto como chegou àquelas conclusões, para ampliar minha perspectiva, e peço que explique até seu esquema de classificação em nível de metadados
Especialmente em codebases grandes, onde a dificuldade está mais no tamanho do grafo de referências do que no conceito em si, tento usar isso de um jeito que melhore minha própria capacidade de resolver problemas
Porque, mesmo que os modelos hospedados sumam ou fiquem caros demais, você só perderia essa pequena diferença de desempenho
Claro que nenhuma dessas duas premissas é nem um pouco óbvia, então é mais uma esperança do que outra coisa
E, sinceramente, ainda é difícil acreditar nesse mantra de 10x de produtividade sendo repetido até hoje
O lançamento do GPT-5.5 é hoje, mas a entrada no ChatGPT e no Codex será gradual ao longo de algumas horas
Para manter a estabilidade do serviço, vão liberar por etapas como em lançamentos anteriores, normalmente começando por Pro/Enterprise e depois descendo para Plus
Pode ser que não apareça de imediato, então pedem para checar de novo mais tarde
Esperar aleatoriamente pode ser irritante, mas dizem que é assim por estabilidade
Diz que trabalha na OpenAI
Tentei usar como alternativa depois do OAuthgate da Anthropic, mas ele não conseguia concluir nem subtarefas rápidas, seguras e inofensivas
A conversa virava um ciclo infinito de “eu deveria ter feito X aqui” “verdade, falhei” “então faz agora” “eu devia, mas não fiz”, só pedindo desculpas sem parar
Depois, ver GLM, Kimi e Minimax fazerem isso sem problema algum deixou tudo ainda mais absurdo, então não teve jeito: descartei a OpenAI na hora
Melhor ainda se a interface mostrasse que o modelo existe, mas ainda não foi liberado para a minha conta
Seria perfeito até ter um ETA, embora durante o rollout possam surgir problemas que dificultem prever isso
Queria saber se o Images 2.0 também vai ser liberado dentro do ChatGPT junto, ou se por enquanto continua como recurso exclusivo de API/Playground
Ainda não há acesso oficial via API, mas ultimamente a OpenAI parece estar basicamente tolerando o backdoor da API do Codex usado pelo OpenClaw
https://twitter.com/steipete/status/2046775849769148838 e https://twitter.com/romainhuet/status/2038699202834841962
Esse backdoor de API já inclui o GPT-5.5
Então rodei o exemplo do pelicano, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
usando o novo plugin para LLM https://github.com/simonw/llm-openai-via-codex
Depois, ao aumentar o reasoning effort para xhigh, saiu um pelicano bem melhor
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
Mesmo assim, este é engraçado porque está com as pernas cruzadas
Já estamos na versão 5.5 e ainda não consegue desenhar direito nem um quadro básico de bicicleta
A roda da frente não teria como virar para o lado, mas o desenho erra até isso
Não sei exatamente o que são reasoning tokens, mas, de qualquer forma, a quantidade de tokens parece chocantemente baixa
Pelo que lembro, a Anthropic odiava bastante esse tipo de uso
Até modelos locais de pesos abertos, como o Qwen que postaram ontem, pareciam melhores
Todo mundo só falou do gating do Mythos da Anthropic e do marketing de 83% no CyberGym, mas a OpenAI simplesmente lançou o GPT-5.5 e a pontuação é 82%
O fato de qualquer um poder testar é muito mais importante
Para quem trabalha com cibersegurança ofensiva/defensiva, faz mais sentido mexer diretamente num modelo realmente liberado do que ficar em cima de divulgação exagerada
Nunca pensei que diria isso, mas agora a OpenAI parece novamente a opção mais aberta
Então o pânico no setor de segurança veio da ideia de que restariam só umas duas semanas para bloquear os novos zero-days e, depois disso, poderia começar uma temporada aberta em que black hats encontrariam e explorariam falhas em massa
A Anthropic nunca lançou um modelo aberto, nunca abriu voluntariamente o código-fonte do Claude Code, e nem liberou o tokenizer
A documentação diz até que, se tarefas relacionadas a cibersegurança forem detectadas automaticamente, pode haver fallback para o GPT-5.2
https://developers.openai.com/codex/concepts/cyber-safety
https://chatgpt.com/cyber
A Anthropic me parece quase a personificação do blefe
Depois que li Cialdini, esse tipo de encenação da Anthropic ficou cansativo
Já a OpenAI é muito esperta. Quando o Claude ganhou tração, ela sumiu das manchetes por um tempo, e agora, com sua base gigantesca de usuários, basta acompanhar o ritmo de lançamentos da Anthropic para fazer a rival parecer ridícula
Do ponto de vista da Anthropic, cada nova versão do GPT provavelmente vai tornar a situação ainda mais humilhante, e tudo parece caminhar para a OpenAI dominar completamente
Queria que olhassem a seção de preços/limites de uso desta página
https://developers.openai.com/codex/pricing?codex-usage-limi...
Basta ver a diferença de Local Messages entre 5.3, 5.4 e 5.5
Li a alegação de que o 5.5 é mais eficiente e por isso teria um ponto de equilíbrio parecido com o 5.4, mas, de todo modo, a tendência parece ser de limites mais apertados e preços mais altos
A lição que aparentemente tiraram do caso da Anthropic foi que desenvolvedores passam a depender muito rápido de agentes de programação e até ficam viciados neles, então pagariam qualquer valor mesmo por melhorias pequenas
O protótipo de arena de dungeon 3D feito com Codex e GPT parece bem convincente
Dizem que o Codex cuidou da arquitetura do jogo, da implementação em TypeScript/Three.js, do sistema de combate, dos encontros com inimigos e do feedback da HUD; as texturas do ambiente foram geradas pelo GPT; e os modelos e animações dos personagens vieram de ferramentas terceiras de geração de assets
O motivo de o visual estar bom provavelmente é que o mesh não foi feito diretamente pelo GPT-5.5, mas por outra ferramenta
Isso dá a sensação de que está chegando uma era parecida com a da Flash, em que jogadores ou desenvolvedores hobby conseguem criar rapidamente conceitos de jogo e publicá-los direto na web
Em especial, o Three.js nem é uma engine de jogo, mas está virando praticamente uma ferramenta central para projetar jogos com IA
Olhando só para Three.js, foi o maior salto de uma geração para outra, especialmente em shaders GLSL, e também melhorou na estruturação de cenas divididas em várias páginas/componentes
Criar shaders completos do zero ainda é difícil, mas a capacidade de modificar shaders existentes já está bem útil
No 5.2 e abaixo, ele era realmente ruim no padrão one canvas, multiple page de manter um único canvas de fundo em várias rotas, mas o 5.4, embora ainda precise de alguma orientação, responde muito melhor a prompts de refatoração e otimização
Estou animado para testar como o 5.5 se sai de verdade
Uma visualização de relógio bem esquisita que fiz também dependeu bastante disso
Não é uma engine de jogo, mas para WebGL 3D na web é praticamente o padrão e, por ser antigo, tem uma quantidade enorme de dados de treinamento
Antes dos LLMs, eu dependia mais do Babylon.js, que tem recursos de nível mais alto
Antes o nome era Spielwerk, e é um app para criar e compartilhar jogos no iOS
É tudo baseado na web, então compartilhar é fácil
https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
Não testei com GPT, mas com Claude, por melhor que fosse o prompt engineering, ele não conseguia resolver um cubo mágico, e o Opus 4.6 acertava só uns 70% do quebra-cabeça antes de travar
Como cada tentativa custa 20 dólares, também fica inviável financeiramente
Se fosse possível fazê-los realmente raciocinar em três dimensões, talvez desse para estender essa mesma abordagem a problemas de matemática que hoje eles não conseguem resolver
Estou pensando em publicar meu servidor MCP do Cubo Mágico para desafiar alguém a resolver o cubo só com prompts
Nesta apresentação, a parte mais interessante do que os benchmarks foi que o Codex analisou algumas semanas de padrões reais de tráfego, aumentou a utilização de GPU e escreveu algoritmos heurísticos customizados para divisão e balanceamento de tarefas, elevando a velocidade de geração de tokens em mais de 20%
Essa área em que LLMs agentivos conseguem fazer otimização de eficiência computacional desse tipo tem enorme impacto, mas parece ser menos testada do que benchmarks
Pela minha experiência, o Opus ainda é melhor nisso do que GPT/Codex, mas como a OpenAI está obtendo ganhos práticos ao maximizar esse desempenho sob pressão de custo e capacidade, parece provável que continue empurrando nessa direção
Lembrei daquela antiga otimização famosa do code golf de FizzBuzz da Intel e pedi ao gemini pro, junto com meu código, para sugerir “otimizações inteligentes daquele tipo”, e as sugestões foram realmente excelentes
Os LLMs continuam me surpreendendo todos os dias
E como todas as empresas sabem que otimizar sua infraestrutura e seus modelos é um caminho central para vencer a concorrência, imagino que estejam levando essa parte muito a sério
É bom ir além de benchmarks tradicionais como MMLU, mas citar números assim sem experimentos controlados adequados não ajuda muito
Olhando os números de Mythos vs GPT-5.5, no SWE-bench Pro a diferença ainda é grande, mas no resto parecem bem parecidos
SWE-bench Pro 77,8% vs 58,6%
Terminal-bench-2.0 82,0% vs 82,7%
GPQA Diamond 94,6% vs 93,6%
H. Last Exam 56,8% vs 41,4%
H. Last Exam (tools) 64,7% vs 52,2%
BrowseComp 86,9% vs 84,4%, e no Pro 90,1%
OSWorld-Verified 79,6% vs 78,7%
A fonte dos números do Mythos é https://www.anthropic.com/glasswing
Hoje, ao usar o Opus 4.7, a autonomia parece absurdamente nerfada, e as restrições por causa da suposta segurança são pesadas demais
Então não tenho muita confiança de que ele seja tão incrível na prática quanto a Anthropic anuncia
Está aqui
https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
Peguei as submissões oficiais em https://github.com/SWE-bench/experiments/tree/main/evaluatio..., filtrei só os modelos a partir do Sonnet 4 e somei o resultado nos 500 problemas completos: a taxa de resolução combinada de todos os modelos deu exatamente 93%
Mas o Mythos marcou 93,7%, o que implicaria resolver até problemas que nenhum outro modelo resolveu, e, ao olhar esses casos diretamente, tudo ficou ainda mais suspeito
Os 7% restantes pareciam quase impossíveis de resolver sem ver o patch de teste antes, e a solução real seguia um caminho tão diferente da descrição do problema que parecia até resolver outro problema
Não estou dizendo que o Mythos trapaceou, mas talvez ele memorize tão bem vários estados do repositório que consiga inferir a declaração real do problema só pelo diff armazenado na memória interna
Sem isso, é difícil explicar como ele interpretaria descrições tão ambíguas com tanta precisão
Sempre aparecem resultados estranhos em algum benchmark
Ainda acho decepcionante que a taxa de alucinação continue em 86%
Em comparação, o Opus está em torno de 36%
A fonte é https://artificialanalysis.ai/models?omniscience=omniscience...
Dependendo da pergunta, a alucinação parece até mais perto de 100%, então esse benchmark não bate muito com a intuição
A pessoa que pergunta provavelmente não entende totalmente o problema, então, seja qual for o resultado, parece preferir uma resposta confiante
O objetivo parece ser vender uma impressão de competência mais do que a capacidade real da tecnologia
LLMs podem arruinar um produto, e, se algum bilionário acredita que sua máquina de pensar pode substituir funcionários e por isso decide despejar 75% do orçamento de trabalho nisso, só resta desejar boa sorte no tombo
Esse modelo é muito forte em tarefas de longa duração, e o Codex agora também tem heartbeats, então dá para continuar acompanhando o estado do trabalho
Diz que, se você der um problema difícil que leve horas e tenha restrições verificáveis, vai perceber como ele é bom
Diz que trabalha na OpenAI
Tenho me cansado de outros modelos ultimamente, especialmente o Opus, porque eles vivem parando no meio da tarefa
Parabéns pelo lançamento