Lançamento do GPT-5.5

(openai.com)

4 pontos por GN⁺ 2026-04-24 | 1 comentários | Compartilhar no WhatsApp

Um modelo de perfil agente, capaz de planejar tarefas complexas por conta própria e combinar ferramentas para executá-las até o fim, cobrindo uma ampla gama de atividades, de escrita de código e depuração a pesquisa na web, análise de dados, criação de documentos e planilhas e operação de software
Mantendo a mesma per-token latency do GPT-5.4, apresentou melhora em coding, computer use, trabalho do conhecimento e pesquisa científica inicial, além de concluir as mesmas tarefas do Codex com menos tokens, aumentando também a eficiência
Em engenharia de software, registrou 82,7% no Terminal-Bench 2.0, 73,1% no Expert-SWE e 58,6% no SWE-Bench Pro, com pontos fortes em implementação, refatoração, depuração, testes, validação e manutenção de contexto em grandes codebases
Também fortaleceu o fluxo de trabalho em tarefas gerais e de pesquisa, desde a criação de documentos, planilhas e slides até computer use baseado em manipulação de tela, análise de dados em múltiplas etapas, validação de hipóteses e interpretação de resultados, enquanto o GPT-5.5 Pro mira maior precisão e abrangência
Antes do lançamento, passou por salvaguardas reforçadas e testes internos e externos, e está sendo distribuído gradualmente no ChatGPT e no Codex com foco em usuários Plus, Pro, Business e Enterprise, ampliando o alcance do uso prático de IA

Visão geral do modelo e escopo de distribuição

O GPT-5.5 é apresentado como um modelo que entende intenções mais rapidamente, planeja por conta própria tarefas com várias etapas interligadas e usa ferramentas para levá-las até o fim
- Pode realizar escrita de código e depuração, pesquisa na web, análise de dados, criação de documentos e planilhas, operação de software e tarefas que transitam entre várias ferramentas
- Em vez de exigir controle minucioso de cada etapa, foi projetado para receber de uma vez tarefas complexas e desorganizadas e seguir com planejamento, uso de ferramentas, validação e tratamento de ambiguidades
O avanço em tarefas agentic é especialmente enfatizado, com desempenho forte em coding, computer use, knowledge work e pesquisa científica inicial
- Embora modelos maiores muitas vezes fiquem mais lentos, a per-token latency em serviço real foi mantida igual à do GPT-5.4
- A eficiência também aumentou ao concluir as mesmas tarefas do Codex com menos tokens
Antes do lançamento, foram reforçadas as salvaguardas, incorporando testes internos e externos de red team, avaliações adicionais de capacidades avançadas em cybersecurity e biologia, além de feedback inicial de cerca de 200 parceiros de confiança
No momento, está sendo distribuído gradualmente no ChatGPT e no Codex para usuários Plus, Pro, Business e Enterprise, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
- A API ainda está atendendo requisitos adicionais de segurança e deve oferecer o GPT-5.5 e o GPT-5.5 Pro em breve

Engenharia de software e coding de perfil agente

A OpenAI está construindo uma infraestrutura de agentic AI, e no último ano a IA acelerou significativamente a engenharia de software
- Com a chegada do GPT-5.5 ao Codex e ao ChatGPT, essa mudança começa a se expandir para pesquisa científica e tarefas gerais no computador
Segundo o Artificial Analysis Coding Index, entrega inteligência de topo pela metade do custo em comparação com modelos frontier concorrentes de coding
O GPT-5.5 é apresentado pela OpenAI como seu modelo de agentic coding mais forte
- Obteve 82,7% no Terminal-Bench 2.0, que avalia fluxos complexos de trabalho em linha de comando que exigem planejamento, iteração e combinação de ferramentas
- No SWE-Bench Pro, alcançou 58,6% e resolveu ponta a ponta, em uma única passagem, mais tarefas do que o modelo anterior em problemas reais do GitHub
- Também superou o GPT-5.4 no Expert-SWE, avaliação interna da empresa
Nas três avaliações de coding, obteve pontuações mais altas usando menos tokens que o GPT-5.4
No Codex, seus pontos fortes aparecem em implementação, refatoração, depuração, testes e validação
- Ficou mais forte em comportamentos reais de engenharia, como manter o contexto de sistemas grandes, rastrear causas ambíguas de falha, confirmar hipóteses com ferramentas e refletir mudanças em toda a codebase

Exemplos de uso em coding e testes iniciais

Foi incluído como exemplo um prompt de implementação de um app WebGL + Vite usando dados reais da Artemis II
- Usa dados vetoriais do NASA/JPL Horizons para renderizar as trajetórias de Orion, Moon e Sun
- Aplica uma escala de exibição para melhorar a legibilidade
Testadores iniciais avaliaram que o GPT-5.5 entende melhor a estrutura do sistema
- Identifica com mais precisão o que falhou e por quê, onde a correção deve entrar e que impacto isso terá em outras partes da codebase
Dan Shipper testou se seria possível reverter uma falha após o lançamento e recriar uma reformulação no mesmo nível, e o GPT-5.4 falhou, enquanto o GPT-5.5 teve sucesso
Pietro Schirano fez a mesclagem de uma só vez em cerca de 20 minutos de um branch com centenas de alterações de frontend e refactor em um branch principal bastante modificado
Em testes com engenheiros seniores, destacou-se em reasoning e autonomy em relação ao GPT-5.4 e ao Claude Opus 4.7
- Mesmo sem prompt explícito, antecipa problemas e até prevê a necessidade de testes e revisão
- Ao receber o pedido de redesenhar o sistema de comentários de um editor markdown colaborativo, entregou uma pilha de 12 diffs quase pronta
- Foram necessárias menos correções de implementação do que o esperado, e a confiança no plano também ficou acima da do GPT-5.4
Na citação de Michael Truell, da Cursor, aparece a característica de sustentar o trabalho por mais tempo, adequando-se melhor a tarefas complexas e de longa duração sem interromper cedo demais

Trabalho do conhecimento em geral e uso do computador

Os pontos fortes vistos em coding se estendem diretamente ao trabalho cotidiano no computador
- Como entende melhor a intenção, executa de forma mais natural todo o processo de buscar informações, selecionar o que é importante, usar ferramentas, validar resultados e transformar material bruto em entregáveis úteis
No Codex, o GPT-5.5 é mais forte que o GPT-5.4 na criação de documentos, planilhas e slides
- Testadores alpha afirmaram que ele supera o modelo anterior em pesquisa operacional, modelagem de planilhas e transformação de insumos de negócio desorganizados em planos
Em combinação com a capacidade de computer use do Codex, consegue ver a tela, clicar, digitar, navegar por interfaces e alternar com precisão entre várias ferramentas
A OpenAI já o utiliza internamente em fluxos de trabalho reais, e atualmente mais de 85% dos funcionários usam o Codex semanalmente
- Ele é aplicado em engenharia de software, finanças, comunicação, marketing, ciência de dados e gestão de produto
A equipe de comunicação analisou dados de seis meses de speaking requests para criar um framework de pontuação e risco, além de validar um agente no Slack que processa automaticamente solicitações de baixo risco e encaminha as de alto risco para revisão humana
A equipe de Finance revisou 24.771 formulários fiscais K-1, totalizando 71.637 páginas, e adiantou o trabalho em duas semanas em relação ao ano anterior por meio de um fluxo que exclui informações pessoais
Na equipe de Go-to-Market, a automação da geração de relatórios semanais de negócios economiza de 5 a 10 horas por semana

GPT-5.5 Thinking e GPT-5.5 Pro no ChatGPT

O GPT-5.5 Thinking do ChatGPT foi projetado para responder mais rápido a problemas mais difíceis, permitindo executar tarefas complexas com mais eficiência por meio de respostas mais inteligentes e concisas
- é forte em coding, research, síntese e análise de informações e trabalho centrado em documentos, sendo especialmente vantajoso ao usar plugins
O GPT-5.5 Pro mira tarefas mais difíceis e qualidade mais alta, com menor latência e maior aplicabilidade em contextos reais
- em comparação com o GPT-5.4 Pro, as respostas ficaram mais abrangentes, melhor estruturadas, mais precisas, mais relevantes e mais úteis
- é especialmente forte em business, legal, education e data science
Também apresenta números altos em benchmarks próximos de trabalho profissional
- registrou 84.9% no GDPval, 78.7% no OSWorld-Verified e 98.0% no Tau2-bench Telecom
- o Tau2-bench Telecom foi realizado sem prompt tuning
- também foram apresentados 60.0% no FinanceAgent, 88.5% em internal investment-banking modeling tasks e 54.1% no OfficeQA Pro
Na citação de Justin Boitano, da NVIDIA, é apresentado um fluxo em que o sistema é fornecido sobre o NVIDIA GB200 NVL72, entrega funcionalidades end-to-end com prompts em linguagem natural, reduz o tempo de debug de dias para horas e transforma experimentos que levariam semanas em execuções durante a noite

Fluxo de trabalho de pesquisa científica e tecnológica

O GPT-5.5 também mostra melhora de desempenho em fluxos de trabalho de pesquisa científica e tecnológica
- vai além de responder perguntas difíceis e sustenta melhor o ciclo de explorar ideias, reunir evidências, validar hipóteses, interpretar resultados e decidir o próximo experimento
No GeneBench, mostra melhora clara em relação ao GPT-5.4
- é uma nova avaliação voltada para análise de dados em múltiplas etapas em genetics e quantitative biology
- lida com dados ambíguos ou com erros, confounders ocultos, falhas de QC e implementação e interpretação de técnicas estatísticas modernas
- as tarefas aqui correspondem a projetos de vários dias até mesmo para especialistas científicos
Também registrou desempenho de liderança entre os modelos com pontuação pública no BixBench
- é apresentado como um benchmark que reflete bioinformatics e análise de dados do mundo real
- mostra potencial de aceleração em nível de co-scientist na fronteira da biomedical research
Uma versão interna do GPT-5.5 e um harness customizado também foram usados para encontrar uma nova prova sobre Ramsey numbers
- Link para a nova prova
- encontrou uma prova sobre um fato assintótico em antigos off-diagonal Ramsey numbers da combinatorics, posteriormente verificada em Lean
- contribuiu não só com código ou explicações, mas também com argumentos matemáticos úteis em áreas centrais de pesquisa
Os primeiros testers usaram o GPT-5.5 Pro mais como parceiro de pesquisa do que como mecanismo de resposta pontual
- revisando criticamente manuscritos várias vezes, fazendo stress test de argumentos técnicos, sugerindo análises e trabalhando com contexto de código, notas e PDFs
- ajuda melhor no fluxo que vai da pergunta ao experimento e aos resultados

Casos de pesquisa

Derya Unutmaz, do Jackson Laboratory for Genomic Medicine, analisou com o GPT-5.5 Pro um dataset de expressão gênica com 62 amostras e cerca de 28.000 genes
- gerou um relatório de pesquisa detalhado, revelando não só o resumo dos resultados, mas também perguntas centrais e insights
- esse trabalho teria uma escala de meses se fosse realizado por sua equipe
Bartosz Naskręcki, da Adam Mickiewicz University, criou com o Codex um app de algebraic geometry em 11 minutos a partir de um único prompt
- visualizou a interseção de duas quadratic surfaces e converteu a curva resultante para um modelo de Weierstrass
- depois tornou a visualização de singularity mais estável e adicionou exact coefficients reutilizáveis para trabalhos posteriores
- o Codex também ajudou na implementação de visualização matemática personalizada e de workflows de computer algebra que antes exigiam ferramentas dedicadas
Credit: Bartosz Naskręcki
Na citação de Brandon White, da Axiom Bio, o modelo raciocina sobre um enorme biochemical dataset para prever human drug outcomes, mostrando ganho significativo de precisão nas avaliações mais difíceis de drug discovery

Infraestrutura de inferência e otimização de desempenho

Para servir o GPT-5.5 com a mesma latência do GPT-5.4, foi necessário redesenhar a inferência como um sistema integrado, e não como um conjunto de otimizações isoladas
- o GPT-5.5 foi co-projetado, treinado e servido tendo como base os sistemas NVIDIA GB200 e GB300 NVL72
O Codex e o próprio GPT-5.5 contribuíram diretamente para atingir as metas de desempenho
- o Codex foi usado para transformar rapidamente ideias em implementações mensuráveis por benchmark, esboçar abordagens, conectar experimentos e identificar otimizações que exigiam investimento mais profundo
- o GPT-5.5 ajudou a identificar e implementar melhorias centrais dentro da stack
- no fim, o modelo também contribuiu para melhorar a infraestrutura que serve a si mesmo
Como exemplo representativo de melhoria, são apresentados load balancing e partitioning heuristics
- antes, as requisições no accelerator eram divididas em um número fixo de chunks, fazendo com que requisições grandes e pequenas rodassem na mesma GPU
- porém, um número estático de chunks não era ideal para todos os padrões de tráfego
- o Codex analisou padrões de production traffic ao longo de várias semanas e escreveu um algoritmo heuristic customizado para particionar e balancear as tarefas de forma ideal
- com esse trabalho, a token generation speed aumentou mais de 20%

Cibersegurança e salvaguardas

Preparar para o mundo modelos capazes de detectar vulnerabilidades e aplicar patches é algo mais próximo de um esporte coletivo, e é necessária a resiliência de todo o ecossistema para a próxima era da defesa cibernética
- Link relacionado: next era of cyber defense
As capacidades de cybersecurity dos modelos de fronteira estão ficando cada vez mais fortes, e como essa capacidade vai se disseminar amplamente, torna-se importante o caminho para usá-la na aceleração da defesa cibernética e no fortalecimento do ecossistema
O GPT-5.5 é posicionado como um passo gradual, mas importante rumo a uma IA que resolve problemas difíceis como cybersecurity
- No GPT-5.2, foram implantadas de forma preventiva cyber safeguards para limitar o potencial uso indevido em cyber
- No GPT-5.5, foram implantados classifiers mais rigorosos para potenciais cyber risks, o que no início pode incomodar alguns usuários
A OpenAI tratou cybersecurity como uma categoria separada dentro do Preparedness Framework por vários anos, e vem ajustando iterativamente as medidas de mitigação conforme as capacidades evoluem
Foram implantadas salvaguardas em nível líder do setor de acordo com esse nível de capacidade cyber
- O GPT-5.2 introduziu pela primeira vez uma salvaguarda específica para cyber, e desde então ela vem sendo testada, refinada e ampliada a cada lançamento
- No GPT-5.5, a proteção contra atividades de alto risco, solicitações cyber sensíveis e abuso repetido foi ainda mais reforçada
- A abordagem de acesso amplo foi possibilitada por investimentos em segurança do modelo, uso autenticado e monitoramento de usos não permitidos
- A robustez foi desenvolvida, testada e aprimorada durante vários meses com especialistas externos
- Ao mesmo tempo em que facilita para desenvolvedores protegerem seu código, aplica controles mais fortes a fluxos de trabalho cyber que possam facilitar danos por agentes maliciosos
A expansão do acesso para fins defensivos também avança em paralelo
- Por meio do Trusted Access for Cyber, é oferecido acesso a modelos cyber-permissive, com o Codex como ponto de partida
- Para usuários verificados que atendem a determinados trust signals, os recursos avançados de cybersecurity do GPT-5.5 são oferecidos com menos restrições
- Organizações responsáveis pela defesa de critical infrastructure podem solicitar acesso a modelos cyber-permissive como o GPT-5.4-Cyber
- O objetivo é fornecer a responsáveis verificados pela defesa ferramentas para trabalho legítimo de segurança com menos atrito
- Link para inscrição: chatgpt.com/cyber
Isso também inclui cooperação com parceiros governamentais
- Estão explorando em conjunto como uma IA avançada pode apoiar agentes públicos que defendem infraestruturas críticas, como sistemas digitais de proteção de dados fiscais, redes elétricas e o abastecimento de água das comunidades locais
As capacidades biological/chemical e de cybersecurity do GPT-5.5 são classificadas como High no Preparedness Framework
- Embora não tenha alcançado o nível Critical de cybersecurity capability, avaliações e testes confirmaram uma capacidade cyber um nível acima da do GPT-5.4
Antes do lançamento, passou por todo o processo de safety and governance
- Isso incluiu avaliações de preparedness, testes por área, novas avaliações direcionadas para biology e cybersecurity avançadas e testes robustos com especialistas externos
- Mais detalhes estão disponíveis no GPT-5.5 system card
Essa abordagem faz parte da estratégia de AI resilience necessária na era de modelos mais poderosos
- Também é preciso disponibilizar IA poderosa para quem defende sistemas, instituições e o público, e acesso baseado em confiança, safeguards reforçadas proporcionalmente à capacidade e capacidade operacional para detectar e responder a abusos graves são apresentados como caminhos centrais

Planos disponíveis e preços

Atualmente, no ChatGPT e no Codex, o GPT-5.5 está sendo disponibilizado para usuários Plus, Pro, Business e Enterprise, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
No ChatGPT, o GPT-5.5 Thinking é oferecido para Plus, Pro, Business e Enterprise
- O GPT-5.5 Pro mira perguntas mais difíceis e maior precisão, e está disponível em Pro, Business e Enterprise
No Codex, o GPT-5.5 é oferecido nos planos Plus, Pro, Business, Enterprise, Edu e Go, e conta com 400K context window
- O Fast mode também é oferecido, com velocidade de geração de tokens 1,5 vez maior e custo 2,5 vezes maior
O gpt-5.5 para desenvolvedores de API será disponibilizado em breve nas APIs Responses e Chat Completions
- Está listado com US$ 5 por 1M tokens de entrada, US$ 30 por 1M tokens de saída e 1M context window
- Os preços de Batch e Flex são metade da tarifa padrão da API, e o Priority processing é oferecido com tarifa 2,5 vezes maior
O gpt-5.5-pro também será lançado na API e mira maior precisão
- Está listado com US$ 30 por 1M tokens de entrada e US$ 180 por 1M tokens de saída
- As informações completas de preço estão na pricing page
O GPT-5.5 é mais caro que o GPT-5.4, mas também tem maior inteligência e melhor eficiência de tokens
- No Codex, a experiência foi ajustada para que, para a maioria dos usuários, ele entregue resultados melhores com menos tokens do que o GPT-5.4
- Continua oferecendo uso generoso em todos os níveis de assinatura

Benchmarks detalhados

Coding
- No SWE-Bench Pro (Public), o GPT-5.5 obteve 58,6%, o GPT-5.4 57,7%, o Claude Opus 4.7 64,3% e o Gemini 3.1 Pro 54,2%
- No Terminal-Bench 2.0, o GPT-5.5 marcou 82,7%, o GPT-5.4 75,1%, o Claude Opus 4.7 69,4% e o Gemini 3.1 Pro 68,5%
- No Expert-SWE (Internal), foram apresentados GPT-5.5 com 73,1% e GPT-5.4 com 68,5%
Trabalho profissional
- No GDPval (wins or ties), o GPT-5.5 marcou 84,9%, o GPT-5.4 83,0%, o GPT-5.5 Pro 82,3%, o GPT-5.4 Pro 82,0%, o Claude Opus 4.7 80,3% e o Gemini 3.1 Pro 67,3%
- No FinanceAgent v1.1, o GPT-5.5 marcou 60,0%, o GPT-5.4 56,0%, o GPT-5.4 Pro 61,5%, o Claude Opus 4.7 64,4% e o Gemini 3.1 Pro 59,7%
- Em Investment Banking Modeling Tasks (Internal), o GPT-5.5 marcou 88,5%, o GPT-5.4 87,3%, o GPT-5.5 Pro 88,6% e o GPT-5.4 Pro 83,6%
- No OfficeQA Pro, o GPT-5.5 marcou 54,1%, o GPT-5.4 53,2%, o Claude Opus 4.7 43,6% e o Gemini 3.1 Pro 18,1%
Uso de computador e visão
- No OSWorld-Verified, o GPT-5.5 marcou 78,7%, o GPT-5.4 75,0% e o Claude Opus 4.7 78,0%
- No MMMU Pro (no tools), GPT-5.5 e GPT-5.4 ficaram empatados com 81,2%, e o Gemini 3.1 Pro marcou 80,5%
- No MMMU Pro (with tools), o GPT-5.5 marcou 83,2% e o GPT-5.4 82,1%
Uso de ferramentas
- No BrowseComp, o GPT-5.5 marcou 84,4%, o GPT-5.4 82,7%, o GPT-5.5 Pro 90,1%, o GPT-5.4 Pro 89,3%, o Claude Opus 4.7 79,3% e o Gemini 3.1 Pro 85,9%
- No MCP Atlas, o GPT-5.5 marcou 75,3%, o GPT-5.4 70,6%, o Claude Opus 4.7 79,1% e o Gemini 3.1 Pro 78,2%
- No Toolathlon, o GPT-5.5 marcou 55,6%, o GPT-5.4 54,6% e o Gemini 3.1 Pro 48,8%
- No Tau2-bench Telecom, com base no prompt original, o GPT-5.5 marcou 98,0% e o GPT-5.4 92,8%
- A anotação do MCP Atlas informa que os resultados são após a atualização mais recente de abril de 2026 da Scale AI
- A anotação do Tau2-bench Telecom especifica que os resultados foram avaliados sem prompt adjustment, e que os resultados de prompt adjustment de outros laboratórios foram excluídos
Acadêmico
- No GeneBench, o GPT-5.5 marcou 25,0%, o GPT-5.4 19,0%, o GPT-5.5 Pro 33,2% e o GPT-5.4 Pro 25,6%
- No FrontierMath Tier 1–3, o GPT-5.5 marcou 51,7%, o GPT-5.4 47,6%, o GPT-5.5 Pro 52,4%, o GPT-5.4 Pro 50,0%, o Claude Opus 4.7 43,8% e o Gemini 3.1 Pro 36,9%
- No FrontierMath Tier 4, o GPT-5.5 marcou 35,4%, o GPT-5.4 27,1%, o GPT-5.5 Pro 39,6%, o GPT-5.4 Pro 38,0%, o Claude Opus 4.7 22,9% e o Gemini 3.1 Pro 16,7%
- No BixBench, o GPT-5.5 marcou 80,5% e o GPT-5.4 74,0%
- No GPQA Diamond, o GPT-5.5 marcou 93,6%, o GPT-5.4 92,8%, o GPT-5.4 Pro 94,4%, o Claude Opus 4.7 94,2% e o Gemini 3.1 Pro 94,3%
- No Humanity's Last Exam (no tools), o GPT-5.5 marcou 41,4%, o GPT-5.4 39,8%, o GPT-5.5 Pro 43,1%, o GPT-5.4 Pro 42,7%, o Claude Opus 4.7 46,9% e o Gemini 3.1 Pro 44,4%
- No Humanity's Last Exam (with tools), o GPT-5.5 marcou 52,2%, o GPT-5.4 52,1%, o GPT-5.5 Pro 57,2%, o GPT-5.4 Pro 58,7%, o Claude Opus 4.7 54,7% e o Gemini 3.1 Pro 51,4%
Segurança cibernética
- Em Capture-the-Flags challenge tasks (Internal), o GPT-5.5 marcou 88,1% e o GPT-5.4 83,7%
- No CyberGym, o GPT-5.5 marcou 81,8%, o GPT-5.4 79,0% e o Claude Opus 4.7 73,1%
- A anotação informa que os resultados expandem o CTF mais difícil descrito no system card e adicionam desafios extras de alta dificuldade
Contexto longo
- No Graphwalks BFS 256k f1, o GPT-5.5 marcou 73,7%, o GPT-5.4 62,5% e o Claude Opus 4.7 76,9%
- No Graphwalks BFS 1mil f1, o GPT-5.5 marcou 45,4%, o GPT-5.4 9,4% e o Claude Opus 4.6 41,2%
- No Graphwalks parents 256k f1, o GPT-5.5 marcou 90,1%, o GPT-5.4 82,8% e o Claude Opus 4.7 93,6%
- No Graphwalks parents 1mil f1, o GPT-5.5 marcou 58,5%, o GPT-5.4 44,4% e o Claude Opus 4.6 72,0%
- O OpenAI MRCR v2 8-needle é apresentado por comprimento de contexto, com 4K-8K 98,1%, 8K-16K 93,0%, 16K-32K 96,5%, 32K-64K 90,0%, 64K-128K 83,1%, 128K-256K 87,5%, 256K-512K 81,5% e 512K-1M 74,0%
- No mesmo item, o GPT-5.4 registra respectivamente 97,3%, 91,4%, 97,2%, 90,5%, 86,0%, 79,3%, 57,5% e 36,6%
- No intervalo 128K-256K aparece Claude Opus 4.7 com 59,2%, e no intervalo 512K-1M aparece Claude Opus 4.7 com 32,2%
Raciocínio abstrato
- No ARC-AGI-1 (Verified), o GPT-5.5 marcou 95,0%, o GPT-5.4 93,7%, o GPT-5.4 Pro 94,5%, o Claude Opus 4.7 93,5% e o Gemini 3.1 Pro 98,0%
- No ARC-AGI-2 (Verified), o GPT-5.5 marcou 85,0%, o GPT-5.4 73,3%, o GPT-5.4 Pro 83,3%, o Claude Opus 4.7 75,8% e o Gemini 3.1 Pro 77,1%
- É informado que as avaliações da linha GPT foram realizadas em um ambiente de pesquisa com reasoning effort definido como xhigh, e que em alguns casos a saída pode diferir ligeiramente do ChatGPT em produção

1 comentários

GN⁺ 2026-04-24

Comentários do Hacker News

A fala de que, na NVIDIA, perder o acesso ao GPT-5.5 parece perder um braço ou uma perna soou muito mais sinistra do que talvez pretendiam
Parece valer para toda essa dependência de modelos de ponta para programação e, quanto melhor o desempenho, mais rápido a pessoa passa a se apoiar nisso ao programar
Tendo vivido isso na prática, a sensação é bem desconfortável. Agora, em vez de ter paciência para codar tudo na mão, resolver de uma vez com o modelo é algo como 10 vezes mais rápido, e meu papel também mudou
É impressionante conseguir fazer tanta coisa rodar, mas quando os tokens acabam, o trabalho basicamente para
Quando o Claude cai, forçar código na marra rende menos do que sair para caminhar. Se uma hora depois o Claude tiver voltado, dá para avançar mais do que ficando preso no código gerado por LLM e tentando resolver tudo manualmente até se esgotar
Enfim, continuar nesse estado é meio inquietante
- Parece que a própria teoria do trabalho está sendo virada do avesso pelos LLMs
  O mercado atual parte da premissa de que o trabalho está atomizado e tem pouco poder de barganha, enquanto o capital tem muito mais poder e praticamente define o preço do trabalho
  Mas o que acontece se esse trabalho passar a ser fornecido por outra empresa ainda maior, e se esse trabalho, ao contrário do trabalho tradicional, puder ter o fornecimento cortado por tempo indefinido
  Agora o trabalho virou outra forma de capital, e capital não precisa comer
  Empresas que não usam modelos próprios provavelmente vão aprender isso da forma mais dura
- Também dá para ver isso como algo não tão diferente de usar abstrações de biblioteca
  Você constrói mais rápido, escreve menos código diretamente, e a biblioteca cuida do estado interno ou do gerenciamento de memória no seu lugar
  Algumas pessoas podem se incomodar em depender de chamadas de biblioteca em vez de mexer diretamente com ponteiros e malloc(), mas para outras isso é libertador, porque permite focar em arquitetura de mais alto nível sem cair o tempo todo em trocas de contexto de baixo nível
- Existe um jeito deliberado de usar isso para não cavar minha própria cova cedo demais
  Em vez de pedir respostas prontas, costumo pedir que faça um CLI independente ou alguma ferramenta
  Também pergunto como chegou àquelas conclusões, para ampliar minha perspectiva, e peço que explique até seu esquema de classificação em nível de metadados
  Especialmente em codebases grandes, onde a dificuldade está mais no tamanho do grafo de referências do que no conceito em si, tento usar isso de um jeito que melhore minha própria capacidade de resolver problemas
- Se os modelos locais mantiverem apenas uma defasagem razoável em relação aos modelos hospedados mais recentes, por exemplo algo como 12 meses, e se o hardware local continuar acessível, o risco pode ser limitado
  Porque, mesmo que os modelos hospedados sumam ou fiquem caros demais, você só perderia essa pequena diferença de desempenho
  Claro que nenhuma dessas duas premissas é nem um pouco óbvia, então é mais uma esperança do que outra coisa
- Considerando os interesses financeiros nas ações da NVIDIA e da OpenAI, não é tão estranho saírem falas assim
  E, sinceramente, ainda é difícil acreditar nesse mantra de 10x de produtividade sendo repetido até hoje
O lançamento do GPT-5.5 é hoje, mas a entrada no ChatGPT e no Codex será gradual ao longo de algumas horas
Para manter a estabilidade do serviço, vão liberar por etapas como em lançamentos anteriores, normalmente começando por Pro/Enterprise e depois descendo para Plus
Pode ser que não apareça de imediato, então pedem para checar de novo mais tarde
Esperar aleatoriamente pode ser irritante, mas dizem que é assim por estabilidade
Diz que trabalha na OpenAI
- Testei o OpenClaw com GPT-5.4 API xhigh e simplesmente não consegui fazer o modelo trabalhar
  Tentei usar como alternativa depois do OAuthgate da Anthropic, mas ele não conseguia concluir nem subtarefas rápidas, seguras e inofensivas
  A conversa virava um ciclo infinito de “eu deveria ter feito X aqui” “verdade, falhei” “então faz agora” “eu devia, mas não fiz”, só pedindo desculpas sem parar
  Depois, ver GLM, Kimi e Minimax fazerem isso sem problema algum deixou tudo ainda mais absurdo, então não teve jeito: descartei a OpenAI na hora
- Se existisse um dashboard público de rollout, haveria muito menos confusão
  Melhor ainda se a interface mostrasse que o modelo existe, mas ainda não foi liberado para a minha conta
  Seria perfeito até ter um ETA, embora durante o rollout possam surgir problemas que dificultem prever isso
- Parabéns pelo lançamento
  Queria saber se o Images 2.0 também vai ser liberado dentro do ChatGPT junto, ou se por enquanto continua como recurso exclusivo de API/Playground
- Como usuário Plus, fico receoso de testar porque não sei quanto do limite de uso do Codex isso vai consumir
- Queria saber se o fine-tuning do GPT-5.5 também sai em breve
Ainda não há acesso oficial via API, mas ultimamente a OpenAI parece estar basicamente tolerando o backdoor da API do Codex usado pelo OpenClaw
https://twitter.com/steipete/status/2046775849769148838 e https://twitter.com/romainhuet/status/2038699202834841962
Esse backdoor de API já inclui o GPT-5.5
Então rodei o exemplo do pelicano, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
usando o novo plugin para LLM https://github.com/simonw/llm-openai-via-codex
Depois, ao aumentar o reasoning effort para xhigh, saiu um pelicano bem melhor
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
- O pelicano de modelo local que postei ontem estava mais bonito do que este
  Mesmo assim, este é engraçado porque está com as pernas cruzadas
- Isso, sinceramente, está ruim demais
  Já estamos na versão 5.5 e ainda não consegue desenhar direito nem um quadro básico de bicicleta
  A roda da frente não teria como virar para o lado, mas o desenho erra até isso
- É bastante surpreendente que a configuração padrão tenha usado só 39 reasoning tokens e mesmo assim feito isso
  Não sei exatamente o que são reasoning tokens, mas, de qualquer forma, a quantidade de tokens parece chocantemente baixa
- Fico curioso se esse tipo de uso direto de API é permitido pelos termos
  Pelo que lembro, a Anthropic odiava bastante esse tipo de uso
- Fico me perguntando por que desenha tão pior do que outras coisas recentes
  Até modelos locais de pesos abertos, como o Qwen que postaram ontem, pareciam melhores
Todo mundo só falou do gating do Mythos da Anthropic e do marketing de 83% no CyberGym, mas a OpenAI simplesmente lançou o GPT-5.5 e a pontuação é 82%
O fato de qualquer um poder testar é muito mais importante
Para quem trabalha com cibersegurança ofensiva/defensiva, faz mais sentido mexer diretamente num modelo realmente liberado do que ficar em cima de divulgação exagerada
Nunca pensei que diria isso, mas agora a OpenAI parece novamente a opção mais aberta
- O verdadeiro hype foi que, assim que a Anthropic anunciou o Mythos, todo mundo percebeu que a OpenAI lançaria um concorrente em poucas semanas e que o Sam provavelmente nem bloquearia o acesso
  Então o pânico no setor de segurança veio da ideia de que restariam só umas duas semanas para bloquear os novos zero-days e, depois disso, poderia começar uma temporada aberta em que black hats encontrariam e explorariam falhas em massa
- Em comparação com a Anthropic, a OpenAI sempre foi mais aberta
  A Anthropic nunca lançou um modelo aberto, nunca abriu voluntariamente o código-fonte do Claude Code, e nem liberou o tokenizer
- A OpenAI não fica irritada quando você faz perguntas sobre cibersegurança, exige upload de documento de identidade governamental e, se você não fizer isso, redireciona silenciosamente para um modelo pior?
  A documentação diz até que, se tarefas relacionadas a cibersegurança forem detectadas automaticamente, pode haver fallback para o GPT-5.2
  https://developers.openai.com/codex/concepts/cyber-safety
  https://chatgpt.com/cyber
- Eu ignoro toda notícia hype
  A Anthropic me parece quase a personificação do blefe
  Depois que li Cialdini, esse tipo de encenação da Anthropic ficou cansativo
  Já a OpenAI é muito esperta. Quando o Claude ganhou tração, ela sumiu das manchetes por um tempo, e agora, com sua base gigantesca de usuários, basta acompanhar o ritmo de lançamentos da Anthropic para fazer a rival parecer ridícula
  Do ponto de vista da Anthropic, cada nova versão do GPT provavelmente vai tornar a situação ainda mais humilhante, e tudo parece caminhar para a OpenAI dominar completamente
- Também tenho a impressão de que a OpenAI redireciona perguntas sobre cyber para um modelo mais burro
Queria que olhassem a seção de preços/limites de uso desta página
https://developers.openai.com/codex/pricing?codex-usage-limi...
Basta ver a diferença de Local Messages entre 5.3, 5.4 e 5.5
Li a alegação de que o 5.5 é mais eficiente e por isso teria um ponto de equilíbrio parecido com o 5.4, mas, de todo modo, a tendência parece ser de limites mais apertados e preços mais altos
- Pela API, o preço do GPT-5.5 é o dobro do GPT-5.4, cerca de 4 vezes o do GPT-5.1 e algo como 10 vezes o do Kimi-2.6
  A lição que aparentemente tiraram do caso da Anthropic foi que desenvolvedores passam a depender muito rápido de agentes de programação e até ficam viciados neles, então pagariam qualquer valor mesmo por melhorias pequenas
O protótipo de arena de dungeon 3D feito com Codex e GPT parece bem convincente
Dizem que o Codex cuidou da arquitetura do jogo, da implementação em TypeScript/Three.js, do sistema de combate, dos encontros com inimigos e do feedback da HUD; as texturas do ambiente foram geradas pelo GPT; e os modelos e animações dos personagens vieram de ferramentas terceiras de geração de assets
O motivo de o visual estar bom provavelmente é que o mesh não foi feito diretamente pelo GPT-5.5, mas por outra ferramenta
Isso dá a sensação de que está chegando uma era parecida com a da Flash, em que jogadores ou desenvolvedores hobby conseguem criar rapidamente conceitos de jogo e publicá-los direto na web
Em especial, o Three.js nem é uma engine de jogo, mas está virando praticamente uma ferramenta central para projetar jogos com IA
- Venho experimentando com Three.js e IA nos últimos 3 anos, e no 5.4 senti um salto particularmente grande
  Olhando só para Three.js, foi o maior salto de uma geração para outra, especialmente em shaders GLSL, e também melhorou na estruturação de cenas divididas em várias páginas/componentes
  Criar shaders completos do zero ainda é difícil, mas a capacidade de modificar shaders existentes já está bem útil
  No 5.2 e abaixo, ele era realmente ruim no padrão one canvas, multiple page de manter um único canvas de fundo em várias rotas, mas o 5.4, embora ainda precise de alguma orientação, responde muito melhor a prompts de refatoração e otimização
  Estou animado para testar como o 5.5 se sai de verdade
- Essa era tipo Flash já existe há algum tempo; o gargalo sempre foi a criatividade
- Já recebi muita ajuda de LLMs em jogos e projetos baseados em Three.js e tive bons resultados
  Uma visualização de relógio bem esquisita que fiz também dependeu bastante disso
  Não é uma engine de jogo, mas para WebGL 3D na web é praticamente o padrão e, por ser antigo, tem uma quantidade enorme de dados de treinamento
  Antes dos LLMs, eu dependia mais do Babylon.js, que tem recursos de nível mais alto
- Um conhecido meu está fazendo o Jamboree
  Antes o nome era Spielwerk, e é um app para criar e compartilhar jogos no iOS
  É tudo baseado na web, então compartilhar é fácil
  https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
- LLMs ainda não conseguem fazer raciocínio espacial
  Não testei com GPT, mas com Claude, por melhor que fosse o prompt engineering, ele não conseguia resolver um cubo mágico, e o Opus 4.6 acertava só uns 70% do quebra-cabeça antes de travar
  Como cada tentativa custa 20 dólares, também fica inviável financeiramente
  Se fosse possível fazê-los realmente raciocinar em três dimensões, talvez desse para estender essa mesma abordagem a problemas de matemática que hoje eles não conseguem resolver
  Estou pensando em publicar meu servidor MCP do Cubo Mágico para desafiar alguém a resolver o cubo só com prompts
Nesta apresentação, a parte mais interessante do que os benchmarks foi que o Codex analisou algumas semanas de padrões reais de tráfego, aumentou a utilização de GPU e escreveu algoritmos heurísticos customizados para divisão e balanceamento de tarefas, elevando a velocidade de geração de tokens em mais de 20%
Essa área em que LLMs agentivos conseguem fazer otimização de eficiência computacional desse tipo tem enorme impacto, mas parece ser menos testada do que benchmarks
Pela minha experiência, o Opus ainda é melhor nisso do que GPT/Codex, mas como a OpenAI está obtendo ganhos práticos ao maximizar esse desempenho sob pressão de custo e capacidade, parece provável que continue empurrando nessa direção
- Eu estava fazendo processamento de dados de alto desempenho em Rust e bati numa barreira em que precisava melhorar mais de 100 vezes
  Lembrei daquela antiga otimização famosa do code golf de FizzBuzz da Intel e pedi ao gemini pro, junto com meu código, para sugerir “otimizações inteligentes daquele tipo”, e as sugestões foram realmente excelentes
  Os LLMs continuam me surpreendendo todos os dias
- O KernelBench já testa otimização de kernels CUDA
  E como todas as empresas sabem que otimizar sua infraestrutura e seus modelos é um caminho central para vencer a concorrência, imagino que estejam levando essa parte muito a sério
- O problema desse tipo de afirmação é que ela é muito empírica e difícil de reproduzir
  É bom ir além de benchmarks tradicionais como MMLU, mas citar números assim sem experimentos controlados adequados não ajuda muito
Olhando os números de Mythos vs GPT-5.5, no SWE-bench Pro a diferença ainda é grande, mas no resto parecem bem parecidos
SWE-bench Pro 77,8% vs 58,6%
Terminal-bench-2.0 82,0% vs 82,7%
GPQA Diamond 94,6% vs 93,6%
H. Last Exam 56,8% vs 41,4%
H. Last Exam (tools) 64,7% vs 52,2%
BrowseComp 86,9% vs 84,4%, e no Pro 90,1%
OSWorld-Verified 79,6% vs 78,7%
A fonte dos números do Mythos é https://www.anthropic.com/glasswing
- O Mythos só significa alguma coisa quando der para usar de verdade
  Hoje, ao usar o Opus 4.7, a autonomia parece absurdamente nerfada, e as restrições por causa da suposta segurança são pesadas demais
  Então não tenho muita confiança de que ele seja tão incrível na prática quanto a Anthropic anuncia
- Segundo a página de lançamento da Anthropic, a equipe do Claude confirmou memorização do SWE-bench, e o teste realmente estava nos dados de treinamento
  Está aqui
  https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
- Eu fui olhar com mais atenção o SWE-bench Verified, e os números do Mythos deixam várias dúvidas
  Peguei as submissões oficiais em https://github.com/SWE-bench/experiments/tree/main/evaluatio..., filtrei só os modelos a partir do Sonnet 4 e somei o resultado nos 500 problemas completos: a taxa de resolução combinada de todos os modelos deu exatamente 93%
  Mas o Mythos marcou 93,7%, o que implicaria resolver até problemas que nenhum outro modelo resolveu, e, ao olhar esses casos diretamente, tudo ficou ainda mais suspeito
  Os 7% restantes pareciam quase impossíveis de resolver sem ver o patch de teste antes, e a solução real seguia um caminho tão diferente da descrição do problema que parecia até resolver outro problema
  Não estou dizendo que o Mythos trapaceou, mas talvez ele memorize tão bem vários estados do repositório que consiga inferir a declaração real do problema só pelo diff armazenado na memória interna
  Sem isso, é difícil explicar como ele interpretaria descrições tão ambíguas com tanta precisão
- Um benchmark único não significa absolutamente nada
  Sempre aparecem resultados estranhos em algum benchmark
Ainda acho decepcionante que a taxa de alucinação continue em 86%
Em comparação, o Opus está em torno de 36%
A fonte é https://artificialanalysis.ai/models?omniscience=omniscience...
- É estranho o Grok estar em 17%, o que seria o menor valor, e a maioria dos modelos ficar acima de 80%
  Dependendo da pergunta, a alucinação parece até mais perto de 100%, então esse benchmark não bate muito com a intuição
- Tem algo esquisito aí; o Haiku não parece ter como ir tão bem assim
- Isso parece um sinal de que as empresas querem esse comportamento
  A pessoa que pergunta provavelmente não entende totalmente o problema, então, seja qual for o resultado, parece preferir uma resposta confiante
  O objetivo parece ser vender uma impressão de competência mais do que a capacidade real da tecnologia
  LLMs podem arruinar um produto, e, se algum bilionário acredita que sua máquina de pensar pode substituir funcionários e por isso decide despejar 75% do orçamento de trabalho nisso, só resta desejar boa sorte no tombo
Esse modelo é muito forte em tarefas de longa duração, e o Codex agora também tem heartbeats, então dá para continuar acompanhando o estado do trabalho
Diz que, se você der um problema difícil que leve horas e tenha restrições verificáveis, vai perceber como ele é bom
Diz que trabalha na OpenAI
- Parece um ótimo recurso e quero testar logo
  Tenho me cansado de outros modelos ultimamente, especialmente o Opus, porque eles vivem parando no meio da tarefa
- Na avaliação interna da Canva, o GPT-5.5 resolveu muitos desafios de fronteira de longa duração e, em vários casos, foi o primeiro modelo de IA que testamos a conseguir
  Parabéns pelo lançamento
- Precisaria de uma explicação melhor do que exatamente são heartbeats

Lançamento do GPT-5.5

Visão geral do modelo e escopo de distribuição

Engenharia de software e coding de perfil agente

Exemplos de uso em coding e testes iniciais

Trabalho do conhecimento em geral e uso do computador

GPT-5.5 Thinking e GPT-5.5 Pro no ChatGPT

Fluxo de trabalho de pesquisa científica e tecnológica

Casos de pesquisa

Infraestrutura de inferência e otimização de desempenho

Cibersegurança e salvaguardas

Planos disponíveis e preços

Benchmarks detalhados

Coding

Trabalho profissional

Uso de computador e visão

Uso de ferramentas

Acadêmico

Segurança cibernética

Contexto longo

Raciocínio abstrato

Leituras relacionadas

1 comentários

Comentários do Hacker News