4 pontos por GN⁺ 6 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Um modelo de tipo agente que planeja sozinho tarefas complexas e combina ferramentas para executá-las até o fim, cobrindo amplamente desde escrita de código e depuração até pesquisa na web, análise de dados, criação de documentos e planilhas e operação de software
  • Mantendo a mesma per-token latency do GPT-5.4, teve melhora de desempenho em coding, computer use, trabalho do conhecimento e pesquisa científica inicial, além de ganhar eficiência ao concluir as mesmas tarefas do Codex com menos tokens
  • Em engenharia de software, registrou Terminal-Bench 2.0 82,7%, Expert-SWE 73,1% e SWE-Bench Pro 58,6%, mostrando força em implementação, refatoração, depuração, testes, validação e manutenção de contexto em codebases grandes
  • Também nos fluxos de trabalho de pesquisa e tarefas gerais, foi reforçado o fluxo que vai de criação de documentos, planilhas e slides ao computer use baseado em manipulação de tela, análise de dados em múltiplas etapas, validação de hipóteses e interpretação de resultados, enquanto o GPT-5.5 Pro mira maior precisão e abrangência
  • Antes do lançamento, passou por salvaguardas reforçadas e testes internos e externos, e está sendo liberado gradualmente no ChatGPT e no Codex, com foco em usuários Plus, Pro, Business e Enterprise, parecendo ampliar ainda mais o alcance do uso de IA no trabalho prático

Visão geral do modelo e escopo de distribuição

  • O GPT-5.5 é apresentado como um modelo que entende intenções mais rapidamente, planeja por conta própria tarefas compostas por várias etapas e usa ferramentas para levá-las até o fim
    • Pode executar escrita e depuração de código, pesquisa na web, análise de dados, criação de documentos e planilhas, operação de software e tarefas que transitam entre várias ferramentas
    • Em vez de gerenciar cada etapa minuciosamente, ele foi projetado para receber de uma vez tarefas complexas e desorganizadas e seguir por planejamento, uso de ferramentas, validação e tratamento de ambiguidades
  • O avanço em tarefas agentic é especialmente enfatizado, com desempenho forte em coding, computer use, knowledge work e pesquisa científica inicial
    • Embora modelos maiores frequentemente fiquem mais lentos, a per-token latency em serviço real foi mantida igual à do GPT-5.4
    • A eficiência também aumenta ao concluir as mesmas tarefas do Codex com menos tokens
  • Antes do lançamento, foram reforçadas as salvaguardas, incorporando testes internos e externos de red team, avaliações adicionais de capacidades avançadas de cybersecurity e biologia, além do feedback inicial de cerca de 200 parceiros de confiança
  • No momento, está sendo distribuído gradualmente para usuários Plus, Pro, Business e Enterprise no ChatGPT e no Codex, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
    • A API ainda está atendendo requisitos específicos de segurança, e o GPT-5.5 e o GPT-5.5 Pro devem ser disponibilizados em breve

Engenharia de software e coding agentic

  • A OpenAI está construindo uma infraestrutura de agentic AI, e no último ano a IA acelerou bastante a engenharia de software
    • Com o GPT-5.5 entrando no Codex e no ChatGPT, essa mudança começa a se expandir para pesquisa científica e tarefas gerais no computador
  • Pelo Artificial Analysis Coding Index, ele oferece inteligência de ponta no mesmo nível dos modelos frontier concorrentes, mas com metade do custo
  • O GPT-5.5 é apresentado pela OpenAI como seu modelo de agentic coding mais forte
    • No Terminal-Bench 2.0, registrou 82,7%, avaliando fluxos de trabalho complexos de linha de comando que exigem planejamento, iteração e combinação de ferramentas
    • No SWE-Bench Pro, registrou 58,6% e resolveu de ponta a ponta, em passagem única, mais tarefas do que o modelo anterior em problemas reais do GitHub
    • Também superou o GPT-5.4 na avaliação interna Expert-SWE
  • Nas três avaliações de coding, obteve pontuação maior usando menos tokens que o GPT-5.4
  • Seus pontos fortes no Codex aparecem em implementação, refatoração, depuração, testes e validação
    • Ficou mais forte em comportamentos reais de engenharia, como manter o contexto de sistemas grandes, rastrear causas ambíguas de falha, verificar hipóteses com ferramentas e aplicar mudanças ao longo de toda a codebase

Exemplos de uso em coding e testes iniciais

  • Um prompt de implementação de app WebGL + Vite com dados reais da Artemis II foi incluído como exemplo
    • Usando dados vetoriais NASA/JPL Horizons, ele renderiza as trajetórias de Orion, Lua e Sol
    • Uma escala de exibição é aplicada para melhorar a legibilidade
  • Testadores iniciais avaliaram que o GPT-5.5 entende melhor a arquitetura do sistema
    • Ele identifica com mais precisão o que falhou e por quê, onde a correção deve entrar e que impacto isso terá em outras partes da codebase
  • Dan Shipper testou se ele conseguiria recriar o mesmo nível de redesign após reverter uma falha pós-lançamento, e o GPT-5.4 falhou enquanto o GPT-5.5 teve sucesso
  • Pietro Schirano fez a mesclagem de uma vez, em cerca de 20 minutos, de um branch com centenas de mudanças de frontend e refatoração em um branch principal que já havia mudado bastante
  • Em testes com engenheiros sêniores, seu reasoning e autonomy se destacaram em relação ao GPT-5.4 e ao Claude Opus 4.7
    • Mesmo sem prompt explícito, ele antecipa problemas e prevê a necessidade de testes e revisão
    • Ao ser solicitado a redesenhar o sistema de comentários de um editor markdown colaborativo, produziu uma pilha de 12 diffs quase concluída
    • Foram necessárias menos correções de implementação do que o esperado, e a confiança no planejamento também aumentou em relação ao GPT-5.4
  • Na citação de Michael Truell, da Cursor, aparece a característica de sustentar o trabalho por mais tempo, sendo mais adequado para tarefas complexas e de longa duração sem interromper cedo

Trabalho do conhecimento em geral e uso do computador

  • Os pontos fortes vistos em coding se estendem diretamente às tarefas cotidianas no computador
    • Como entende melhor a intenção, ele executa de forma mais natural todo o processo de buscar informações, selecionar o que é importante, usar ferramentas, validar resultados e transformar insumos brutos em entregáveis úteis
  • No Codex, o GPT-5.5 é mais forte que o GPT-5.4 na criação de documentos, planilhas e slides
    • Testadores alpha afirmaram que ele supera o modelo anterior em pesquisa operacional, modelagem em planilhas e tarefas de transformar entradas de negócio desorganizadas em planos
  • Quando combinado com a capacidade de computer use do Codex, ele pode ver a tela, clicar, digitar, navegar por interfaces e alternar com precisão entre várias ferramentas
  • A OpenAI já o utiliza internamente em fluxos de trabalho reais, e atualmente mais de 85% dos funcionários usam o Codex toda semana
    • Ele é usado em engenharia de software, finanças, comunicação, marketing, ciência de dados e gestão de produto
  • A equipe de comunicação analisou dados de 6 meses de speaking requests para criar um framework de pontuação e risco, validando um agente no Slack que trata automaticamente solicitações de baixo risco e encaminha as de alto risco para revisão humana
  • A equipe de finanças revisou 24.771 formulários fiscais K-1, totalizando 71.637 páginas, e adiantou o processo em 2 semanas em relação ao ano anterior com um fluxo de trabalho que exclui informações pessoais
  • Na equipe de Go-to-Market, a automação da geração de relatórios semanais de negócios economiza de 5 a 10 horas por semana

GPT-5.5 Thinking e GPT-5.5 Pro no ChatGPT

  • O GPT-5.5 Thinking do ChatGPT foi projetado para responder mais rápido a problemas mais difíceis e permite executar tarefas complexas com mais eficiência, com respostas mais inteligentes e concisas
    • forte em coding, research, síntese e análise de informações e trabalho centrado em documentos, com vantagem especial no uso de plugins
  • O GPT-5.5 Pro mira tarefas mais difíceis e maior qualidade, com menor latência, ampliando sua aplicabilidade prática
    • em comparação com o GPT-5.4 Pro, as respostas ficaram mais abrangentes, melhor estruturadas, mais precisas, mais relevantes e mais úteis
    • especialmente forte em business, legal, education e data science
  • Também apresenta números altos em benchmarks próximos de trabalho profissional
    • registrou GDPval 84,9%, OSWorld-Verified 78,7% e Tau2-bench Telecom 98,0%
    • o Tau2-bench Telecom foi executado sem prompt tuning
    • também são apresentados FinanceAgent 60,0%, internal investment-banking modeling tasks 88,5% e OfficeQA Pro 54,1%
  • Em uma citação de Justin Boitano, da NVIDIA, é descrito um fluxo em que o sistema é oferecido sobre o NVIDIA GB200 NVL72, entrega capacidades end-to-end com prompts em linguagem natural, reduz o tempo de debug de dias para horas e transforma experimentos que levariam semanas em execuções feitas da noite para o dia

Fluxo de trabalho de pesquisa científica e tecnológica

  • O GPT-5.5 também mostra melhora de desempenho em fluxos de trabalho de pesquisa científica e tecnológica
    • vai além de apenas responder perguntas difíceis, sustentando melhor o ciclo de explorar ideias, coletar evidências, verificar hipóteses, interpretar resultados e decidir o próximo experimento
  • No GeneBench, mostra melhora clara em relação ao GPT-5.4
    • trata-se de uma nova avaliação voltada à análise de dados em múltiplas etapas em genetics e quantitative biology
    • lida com dados ambíguos ou com erros, confounders ocultos, falhas de QC e implementação e interpretação de técnicas estatísticas modernas
    • as tarefas daqui correspondem a projetos de vários dias até mesmo para especialistas científicos
  • No BixBench, também registrou desempenho de liderança entre os modelos com pontuação pública
    • é apresentado como um benchmark que reflete bioinformatics e análise de dados do mundo real
    • mostra potencial de aceleração em nível de co-scientist na fronteira da biomedical research
  • Uma versão interna do GPT-5.5 e um custom harness também foram usados para encontrar uma nova prova sobre Ramsey numbers
    • link para a nova prova
    • encontrou uma prova sobre um fato assintótico antigo de off-diagonal Ramsey numbers em combinatorics, depois validada com Lean
    • contribui não apenas com código ou explicações, mas também com argumentação matemática útil em áreas centrais de pesquisa
  • Os testadores iniciais usaram o GPT-5.5 Pro mais como parceiro de pesquisa do que como motor de respostas pontuais
    • revisando criticamente manuscritos várias vezes, fazendo stress test de argumentos técnicos, sugerindo análises e trabalhando com o contexto de código, notas e PDFs
    • ajuda melhor no fluxo que vai da pergunta ao experimento e aos entregáveis

Casos de pesquisa

  • Derya Unutmaz, do Jackson Laboratory for Genomic Medicine, analisou com o GPT-5.5 Pro um dataset de expressão gênica com 62 amostras e cerca de 28.000 genes
    • gerou um relatório de pesquisa detalhado, revelando não só o resumo dos resultados, mas também perguntas e insights centrais
    • esse trabalho tinha uma escala que levaria meses para sua equipe executar
  • Bartosz Naskręcki, da Adam Mickiewicz University, criou com o Codex um app de geometria algébrica em 11 minutos a partir de um único prompt
    • visualizou a interseção de duas superfícies quadráticas e converteu a curva resultante em um modelo de Weierstrass
    • depois tornou a visualização de singularity mais estável e ainda adicionou exact coefficients reutilizáveis para trabalhos posteriores
    • o Codex também ajudou a implementar visualizações matemáticas personalizadas e fluxos de trabalho de computer algebra que antes exigiam ferramentas dedicadas
  • Credit: Bartosz Naskręcki
  • Em uma citação de Brandon White, da Axiom Bio, é dito que o sistema infere grandes biochemical datasets para prever human drug outcomes, e que houve melhora significativa de precisão na avaliação mais difícil de drug discovery

Infraestrutura de inferência e otimização de desempenho

  • Para servir o GPT-5.5 com a mesma latência do GPT-5.4, foi necessário redesenhar a inferência como um sistema integrado, e não como um conjunto de otimizações isoladas
    • o GPT-5.5 foi co-projetado, treinado e servido tendo como base os sistemas NVIDIA GB200 e GB300 NVL72
  • O Codex e o próprio GPT-5.5 contribuíram diretamente para atingir as metas de desempenho
    • o Codex foi usado para transformar ideias rapidamente em implementações mensuráveis por benchmark, esboçar abordagens, conectar experimentos e identificar otimizações que exigiam investimento mais profundo
    • o GPT-5.5 ajudou a encontrar e implementar melhorias centrais dentro da stack
    • no fim, o modelo também contribuiu para melhorar a infraestrutura que serve a ele mesmo
  • Como exemplo representativo de melhoria, o texto apresenta load balancing e partitioning heuristics
    • antes, as requisições no accelerator eram divididas em uma quantidade fixa de chunks, fazendo com que pedidos grandes e pequenos rodassem na mesma GPU
    • porém, um número estático de chunks não era ideal para todos os padrões de tráfego
    • o Codex analisou padrões de production traffic ao longo de várias semanas e escreveu um algoritmo heuristic personalizado para dividir e balancear o trabalho de forma ideal
    • com esse trabalho, a token generation speed aumentou mais de 20%

Segurança cibernética e salvaguardas

  • Preparar para o mundo um modelo capaz de detectar vulnerabilidades e aplicar patches é algo mais próximo de um esporte coletivo, e a resiliência de todo o ecossistema é necessária para a próxima era da defesa cibernética
  • As capacidades de cybersecurity dos modelos frontier estão ficando cada vez mais fortes, e como essa capacidade vai se disseminar amplamente, torna-se importante o caminho para usá-la na aceleração da defesa cibernética e no fortalecimento do ecossistema
  • O GPT-5.5 é posicionado como um passo gradual, mas importante rumo a uma IA que resolve problemas difíceis como cybersecurity
    • No GPT-5.2, foram implantadas de forma preventiva cyber safeguards para limitar possíveis abusos cibernéticos
    • No GPT-5.5, foram implantados classificadores mais rigorosos para riscos cibernéticos potenciais, e isso pode ser incômodo para alguns usuários no início
  • Há anos a OpenAI trata cybersecurity como uma categoria separada dentro do Preparedness Framework, e vem ajustando iterativamente as medidas de mitigação de acordo com a evolução das capacidades
  • Foram implantadas salvaguardas em nível de liderança do setor compatíveis com esse nível de capacidade cyber
    • No GPT-5.2, foram introduzidas pela primeira vez salvaguardas específicas para cyber, e desde então elas vêm sendo testadas, refinadas e ampliadas a cada lançamento
    • No GPT-5.5, foram reforçadas ainda mais as proteções contra atividades de alto risco, solicitações cyber sensíveis e abuso recorrente
    • A abordagem de acesso amplo foi possibilitada por investimentos em segurança do modelo, uso autenticado e monitoramento de uso não permitido
    • A robustez foi desenvolvida, testada e aprimorada por vários meses com especialistas externos
    • O objetivo é facilitar para desenvolvedores a proteção de código, ao mesmo tempo em que se impõem controles mais fortes sobre fluxos de trabalho cyber que poderiam facilitar danos por agentes maliciosos
  • A ampliação do acesso para fins defensivos também avança em paralelo
    • Por meio do Trusted Access for Cyber, é oferecido acesso a modelos cyber-permissive, começando pelo Codex
    • Para usuários verificados que atendem a determinados trust signals, os recursos avançados de cybersecurity do GPT-5.5 são oferecidos com menos restrições
    • Organizações responsáveis pela defesa de infraestrutura crítica podem solicitar acesso a modelos cyber-permissive como o GPT-5.4-Cyber
    • O objetivo é oferecer a responsáveis verificados pela defesa ferramentas para trabalho legítimo de segurança com menos fricção
    • Link para inscrição: chatgpt.com/cyber
  • Isso também inclui cooperação com parceiros governamentais
    • Está em andamento a exploração conjunta de como uma IA avançada pode apoiar agentes públicos que defendem infraestrutura crítica, como sistemas digitais para proteger dados fiscais, redes elétricas e o abastecimento de água das comunidades locais
  • As capacidades biological/chemical e de cybersecurity do GPT-5.5 são classificadas como High no Preparedness Framework
    • Embora não tenha atingido o nível Critical de capacidade de cybersecurity, avaliações e testes confirmaram que suas capacidades cyber estão um nível acima das do GPT-5.4
  • Antes do lançamento, o modelo passou por todo o processo de safety and governance
    • Isso inclui avaliação de preparedness, testes por área, novas avaliações direcionadas para biology e cybersecurity avançadas, e testes robustos com especialistas externos
    • Mais detalhes estão disponíveis no GPT-5.5 system card
  • Essa abordagem faz parte da estratégia de AI resilience necessária para a era de modelos mais poderosos
    • É necessário disponibilizar IA poderosa também para quem defende sistemas, instituições e o público, e são apresentados como caminhos centrais o acesso baseado em confiança, salvaguardas reforçadas proporcionalmente às capacidades e capacidade operacional para detectar e responder a abusos graves

Planos disponíveis e preços

  • No momento, no ChatGPT e no Codex, o GPT-5.5 está sendo disponibilizado para usuários Plus, Pro, Business e Enterprise, e o GPT-5.5 Pro é oferecido no ChatGPT para Pro, Business e Enterprise
  • No ChatGPT, o GPT-5.5 Thinking é oferecido para Plus, Pro, Business e Enterprise
    • O GPT-5.5 Pro mira perguntas mais difíceis e maior precisão, e está disponível em Pro, Business e Enterprise
  • No Codex, o GPT-5.5 é oferecido nos planos Plus, Pro, Business, Enterprise, Edu e Go e tem 400K context window
    • O Fast mode também é oferecido, com velocidade de geração de tokens 1,5x maior e custo 2,5x maior
  • O gpt-5.5 para desenvolvedores de API será disponibilizado em breve na Responses API e na Chat Completions API
    • O preço indicado é de US$ 5 por 1M tokens de entrada, US$ 30 por 1M tokens de saída, com 1M context window
    • Os preços de Batch e Flex serão metade da tarifa padrão de API, e o Priority processing será oferecido com tarifa 2,5x maior
  • O gpt-5.5-pro também será lançado na API, com foco em maior precisão
    • Ele está listado a US$ 30 por 1M tokens de entrada e US$ 180 por 1M tokens de saída
    • As informações completas de preços estão na pricing page
  • O GPT-5.5 é mais caro que o GPT-5.4, mas também oferece mais inteligência e melhor eficiência de tokens
    • No Codex, a experiência foi ajustada para que, para a maioria dos usuários, ele entregue resultados melhores que o GPT-5.4 com menos tokens
    • O serviço continua oferecendo limites de uso generosos em todos os níveis de assinatura

Benchmarks detalhados

  • Coding

    • No SWE-Bench Pro (Public), o GPT-5.5 tem 58.6%, o GPT-5.4 57.7%, o Claude Opus 4.7 64.3% e o Gemini 3.1 Pro 54.2%
    • No Terminal-Bench 2.0, o GPT-5.5 tem 82.7%, o GPT-5.4 75.1%, o Claude Opus 4.7 69.4% e o Gemini 3.1 Pro 68.5%
    • No Expert-SWE (Internal), são apresentados GPT-5.5 com 73.1% e GPT-5.4 com 68.5%
  • Trabalho especializado

    • No GDPval (wins or ties), o GPT-5.5 tem 84.9%, o GPT-5.4 83.0%, o GPT-5.5 Pro 82.3%, o GPT-5.4 Pro 82.0%, o Claude Opus 4.7 80.3% e o Gemini 3.1 Pro 67.3%
    • No FinanceAgent v1.1, o GPT-5.5 tem 60.0%, o GPT-5.4 56.0%, o GPT-5.4 Pro 61.5%, o Claude Opus 4.7 64.4% e o Gemini 3.1 Pro 59.7%
    • Em Investment Banking Modeling Tasks (Internal), o GPT-5.5 tem 88.5%, o GPT-5.4 87.3%, o GPT-5.5 Pro 88.6% e o GPT-5.4 Pro 83.6%
    • No OfficeQA Pro, o GPT-5.5 tem 54.1%, o GPT-5.4 53.2%, o Claude Opus 4.7 43.6% e o Gemini 3.1 Pro 18.1%
  • Uso de computador e visão

    • No OSWorld-Verified, o GPT-5.5 tem 78.7%, o GPT-5.4 75.0% e o Claude Opus 4.7 78.0%
    • No MMMU Pro (no tools), GPT-5.5 e GPT-5.4 empatam com 81.2%, e o Gemini 3.1 Pro tem 80.5%
    • No MMMU Pro (with tools), o GPT-5.5 tem 83.2% e o GPT-5.4 82.1%
  • Uso de ferramentas

    • No BrowseComp, o GPT-5.5 tem 84.4%, o GPT-5.4 82.7%, o GPT-5.5 Pro 90.1%, o GPT-5.4 Pro 89.3%, o Claude Opus 4.7 79.3% e o Gemini 3.1 Pro 85.9%
    • No MCP Atlas, o GPT-5.5 tem 75.3%, o GPT-5.4 70.6%, o Claude Opus 4.7 79.1% e o Gemini 3.1 Pro 78.2%
    • No Toolathlon, o GPT-5.5 tem 55.6%, o GPT-5.4 54.6% e o Gemini 3.1 Pro 48.8%
    • No Tau2-bench Telecom, com base no prompt original, o GPT-5.5 tem 98.0% e o GPT-5.4 92.8%
    • A anotação do MCP Atlas diz que são resultados após a atualização mais recente de abril de 2026 da Scale AI
    • A anotação do Tau2-bench Telecom especifica que os resultados foram avaliados sem prompt adjustment, e que os resultados de prompt adjustment de outros laboratórios foram excluídos
  • Acadêmico

    • No GeneBench, o GPT-5.5 tem 25.0%, o GPT-5.4 19.0%, o GPT-5.5 Pro 33.2% e o GPT-5.4 Pro 25.6%
    • No FrontierMath Tier 1–3, o GPT-5.5 tem 51.7%, o GPT-5.4 47.6%, o GPT-5.5 Pro 52.4%, o GPT-5.4 Pro 50.0%, o Claude Opus 4.7 43.8% e o Gemini 3.1 Pro 36.9%
    • No FrontierMath Tier 4, o GPT-5.5 tem 35.4%, o GPT-5.4 27.1%, o GPT-5.5 Pro 39.6%, o GPT-5.4 Pro 38.0%, o Claude Opus 4.7 22.9% e o Gemini 3.1 Pro 16.7%
    • No BixBench, o GPT-5.5 tem 80.5% e o GPT-5.4 74.0%
    • No GPQA Diamond, o GPT-5.5 tem 93.6%, o GPT-5.4 92.8%, o GPT-5.4 Pro 94.4%, o Claude Opus 4.7 94.2% e o Gemini 3.1 Pro 94.3%
    • No Humanity's Last Exam (no tools), o GPT-5.5 tem 41.4%, o GPT-5.4 39.8%, o GPT-5.5 Pro 43.1%, o GPT-5.4 Pro 42.7%, o Claude Opus 4.7 46.9% e o Gemini 3.1 Pro 44.4%
    • No Humanity's Last Exam (with tools), o GPT-5.5 tem 52.2%, o GPT-5.4 52.1%, o GPT-5.5 Pro 57.2%, o GPT-5.4 Pro 58.7%, o Claude Opus 4.7 54.7% e o Gemini 3.1 Pro 51.4%
  • Segurança cibernética

    • Em Capture-the-Flags challenge tasks (Internal), o GPT-5.5 tem 88.1% e o GPT-5.4 83.7%
    • No CyberGym, o GPT-5.5 tem 81.8%, o GPT-5.4 79.0% e o Claude Opus 4.7 73.1%
    • A anotação diz que os resultados ampliam o CTF mais difícil descrito no system card e adicionam mais desafios de alta dificuldade
  • Contexto longo

    • No Graphwalks BFS 256k f1, o GPT-5.5 tem 73.7%, o GPT-5.4 62.5% e o Claude Opus 4.7 76.9%
    • No Graphwalks BFS 1mil f1, o GPT-5.5 tem 45.4%, o GPT-5.4 9.4% e o Claude Opus 4.6 41.2%
    • No Graphwalks parents 256k f1, o GPT-5.5 tem 90.1%, o GPT-5.4 82.8% e o Claude Opus 4.7 93.6%
    • No Graphwalks parents 1mil f1, o GPT-5.5 tem 58.5%, o GPT-5.4 44.4% e o Claude Opus 4.6 72.0%
    • O OpenAI MRCR v2 8-needle é apresentado por comprimento de contexto, com 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5% e 512K-1M 74.0%
    • No mesmo item, o GPT-5.4 tem respectivamente 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5% e 36.6%
    • Na faixa de 128K-256K, aparece Claude Opus 4.7 com 59.2%, e na faixa de 512K-1M, Claude Opus 4.7 com 32.2%
  • Raciocínio abstrato

    • No ARC-AGI-1 (Verified), o GPT-5.5 tem 95.0%, o GPT-5.4 93.7%, o GPT-5.4 Pro 94.5%, o Claude Opus 4.7 93.5% e o Gemini 3.1 Pro 98.0%
    • No ARC-AGI-2 (Verified), o GPT-5.5 tem 85.0%, o GPT-5.4 73.3%, o GPT-5.4 Pro 83.3%, o Claude Opus 4.7 75.8% e o Gemini 3.1 Pro 77.1%
    • Especifica-se que as avaliações da família GPT foram realizadas em um ambiente de pesquisa com o reasoning effort definido como xhigh, e que em alguns casos a saída pode diferir ligeiramente do ChatGPT em produção

1 comentários

 
GN⁺ 6 일 전
Comentários do Hacker News
  • A fala de que, na NVIDIA, perder o acesso ao GPT-5.5 parece perder um braço ou uma perna soou muito mais sinistra do que talvez pretendiam
    Parece valer para toda essa dependência de modelos de ponta para programação e, quanto melhor o desempenho, mais rápido a pessoa passa a se apoiar nisso ao programar
    Tendo vivido isso na prática, a sensação é bem desconfortável. Agora, em vez de ter paciência para codar tudo na mão, resolver de uma vez com o modelo é algo como 10 vezes mais rápido, e meu papel também mudou
    É impressionante conseguir fazer tanta coisa rodar, mas quando os tokens acabam, o trabalho basicamente para
    Quando o Claude cai, forçar código na marra rende menos do que sair para caminhar. Se uma hora depois o Claude tiver voltado, dá para avançar mais do que ficando preso no código gerado por LLM e tentando resolver tudo manualmente até se esgotar
    Enfim, continuar nesse estado é meio inquietante

    • Parece que a própria teoria do trabalho está sendo virada do avesso pelos LLMs
      O mercado atual parte da premissa de que o trabalho está atomizado e tem pouco poder de barganha, enquanto o capital tem muito mais poder e praticamente define o preço do trabalho
      Mas o que acontece se esse trabalho passar a ser fornecido por outra empresa ainda maior, e se esse trabalho, ao contrário do trabalho tradicional, puder ter o fornecimento cortado por tempo indefinido
      Agora o trabalho virou outra forma de capital, e capital não precisa comer
      Empresas que não usam modelos próprios provavelmente vão aprender isso da forma mais dura
    • Também dá para ver isso como algo não tão diferente de usar abstrações de biblioteca
      Você constrói mais rápido, escreve menos código diretamente, e a biblioteca cuida do estado interno ou do gerenciamento de memória no seu lugar
      Algumas pessoas podem se incomodar em depender de chamadas de biblioteca em vez de mexer diretamente com ponteiros e malloc(), mas para outras isso é libertador, porque permite focar em arquitetura de mais alto nível sem cair o tempo todo em trocas de contexto de baixo nível
    • Existe um jeito deliberado de usar isso para não cavar minha própria cova cedo demais
      Em vez de pedir respostas prontas, costumo pedir que faça um CLI independente ou alguma ferramenta
      Também pergunto como chegou àquelas conclusões, para ampliar minha perspectiva, e peço que explique até seu esquema de classificação em nível de metadados
      Especialmente em codebases grandes, onde a dificuldade está mais no tamanho do grafo de referências do que no conceito em si, tento usar isso de um jeito que melhore minha própria capacidade de resolver problemas
    • Se os modelos locais mantiverem apenas uma defasagem razoável em relação aos modelos hospedados mais recentes, por exemplo algo como 12 meses, e se o hardware local continuar acessível, o risco pode ser limitado
      Porque, mesmo que os modelos hospedados sumam ou fiquem caros demais, você só perderia essa pequena diferença de desempenho
      Claro que nenhuma dessas duas premissas é nem um pouco óbvia, então é mais uma esperança do que outra coisa
    • Considerando os interesses financeiros nas ações da NVIDIA e da OpenAI, não é tão estranho saírem falas assim
      E, sinceramente, ainda é difícil acreditar nesse mantra de 10x de produtividade sendo repetido até hoje
  • O lançamento do GPT-5.5 é hoje, mas a entrada no ChatGPT e no Codex será gradual ao longo de algumas horas
    Para manter a estabilidade do serviço, vão liberar por etapas como em lançamentos anteriores, normalmente começando por Pro/Enterprise e depois descendo para Plus
    Pode ser que não apareça de imediato, então pedem para checar de novo mais tarde
    Esperar aleatoriamente pode ser irritante, mas dizem que é assim por estabilidade
    Diz que trabalha na OpenAI

    • Testei o OpenClaw com GPT-5.4 API xhigh e simplesmente não consegui fazer o modelo trabalhar
      Tentei usar como alternativa depois do OAuthgate da Anthropic, mas ele não conseguia concluir nem subtarefas rápidas, seguras e inofensivas
      A conversa virava um ciclo infinito de “eu deveria ter feito X aqui” “verdade, falhei” “então faz agora” “eu devia, mas não fiz”, só pedindo desculpas sem parar
      Depois, ver GLM, Kimi e Minimax fazerem isso sem problema algum deixou tudo ainda mais absurdo, então não teve jeito: descartei a OpenAI na hora
    • Se existisse um dashboard público de rollout, haveria muito menos confusão
      Melhor ainda se a interface mostrasse que o modelo existe, mas ainda não foi liberado para a minha conta
      Seria perfeito até ter um ETA, embora durante o rollout possam surgir problemas que dificultem prever isso
    • Parabéns pelo lançamento
      Queria saber se o Images 2.0 também vai ser liberado dentro do ChatGPT junto, ou se por enquanto continua como recurso exclusivo de API/Playground
    • Como usuário Plus, fico receoso de testar porque não sei quanto do limite de uso do Codex isso vai consumir
    • Queria saber se o fine-tuning do GPT-5.5 também sai em breve
  • Ainda não há acesso oficial via API, mas ultimamente a OpenAI parece estar basicamente tolerando o backdoor da API do Codex usado pelo OpenClaw
    https://twitter.com/steipete/status/2046775849769148838 e https://twitter.com/romainhuet/status/2038699202834841962
    Esse backdoor de API já inclui o GPT-5.5
    Então rodei o exemplo do pelicano, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    usando o novo plugin para LLM https://github.com/simonw/llm-openai-via-codex
    Depois, ao aumentar o reasoning effort para xhigh, saiu um pelicano bem melhor
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • O pelicano de modelo local que postei ontem estava mais bonito do que este
      Mesmo assim, este é engraçado porque está com as pernas cruzadas
    • Isso, sinceramente, está ruim demais
      Já estamos na versão 5.5 e ainda não consegue desenhar direito nem um quadro básico de bicicleta
      A roda da frente não teria como virar para o lado, mas o desenho erra até isso
    • É bastante surpreendente que a configuração padrão tenha usado só 39 reasoning tokens e mesmo assim feito isso
      Não sei exatamente o que são reasoning tokens, mas, de qualquer forma, a quantidade de tokens parece chocantemente baixa
    • Fico curioso se esse tipo de uso direto de API é permitido pelos termos
      Pelo que lembro, a Anthropic odiava bastante esse tipo de uso
    • Fico me perguntando por que desenha tão pior do que outras coisas recentes
      Até modelos locais de pesos abertos, como o Qwen que postaram ontem, pareciam melhores
  • Todo mundo só falou do gating do Mythos da Anthropic e do marketing de 83% no CyberGym, mas a OpenAI simplesmente lançou o GPT-5.5 e a pontuação é 82%
    O fato de qualquer um poder testar é muito mais importante
    Para quem trabalha com cibersegurança ofensiva/defensiva, faz mais sentido mexer diretamente num modelo realmente liberado do que ficar em cima de divulgação exagerada
    Nunca pensei que diria isso, mas agora a OpenAI parece novamente a opção mais aberta

    • O verdadeiro hype foi que, assim que a Anthropic anunciou o Mythos, todo mundo percebeu que a OpenAI lançaria um concorrente em poucas semanas e que o Sam provavelmente nem bloquearia o acesso
      Então o pânico no setor de segurança veio da ideia de que restariam só umas duas semanas para bloquear os novos zero-days e, depois disso, poderia começar uma temporada aberta em que black hats encontrariam e explorariam falhas em massa
    • Em comparação com a Anthropic, a OpenAI sempre foi mais aberta
      A Anthropic nunca lançou um modelo aberto, nunca abriu voluntariamente o código-fonte do Claude Code, e nem liberou o tokenizer
    • A OpenAI não fica irritada quando você faz perguntas sobre cibersegurança, exige upload de documento de identidade governamental e, se você não fizer isso, redireciona silenciosamente para um modelo pior?
      A documentação diz até que, se tarefas relacionadas a cibersegurança forem detectadas automaticamente, pode haver fallback para o GPT-5.2
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • Eu ignoro toda notícia hype
      A Anthropic me parece quase a personificação do blefe
      Depois que li Cialdini, esse tipo de encenação da Anthropic ficou cansativo
      Já a OpenAI é muito esperta. Quando o Claude ganhou tração, ela sumiu das manchetes por um tempo, e agora, com sua base gigantesca de usuários, basta acompanhar o ritmo de lançamentos da Anthropic para fazer a rival parecer ridícula
      Do ponto de vista da Anthropic, cada nova versão do GPT provavelmente vai tornar a situação ainda mais humilhante, e tudo parece caminhar para a OpenAI dominar completamente
    • Também tenho a impressão de que a OpenAI redireciona perguntas sobre cyber para um modelo mais burro
  • Queria que olhassem a seção de preços/limites de uso desta página
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    Basta ver a diferença de Local Messages entre 5.3, 5.4 e 5.5
    Li a alegação de que o 5.5 é mais eficiente e por isso teria um ponto de equilíbrio parecido com o 5.4, mas, de todo modo, a tendência parece ser de limites mais apertados e preços mais altos

    • Pela API, o preço do GPT-5.5 é o dobro do GPT-5.4, cerca de 4 vezes o do GPT-5.1 e algo como 10 vezes o do Kimi-2.6
      A lição que aparentemente tiraram do caso da Anthropic foi que desenvolvedores passam a depender muito rápido de agentes de programação e até ficam viciados neles, então pagariam qualquer valor mesmo por melhorias pequenas
  • O protótipo de arena de dungeon 3D feito com Codex e GPT parece bem convincente
    Dizem que o Codex cuidou da arquitetura do jogo, da implementação em TypeScript/Three.js, do sistema de combate, dos encontros com inimigos e do feedback da HUD; as texturas do ambiente foram geradas pelo GPT; e os modelos e animações dos personagens vieram de ferramentas terceiras de geração de assets
    O motivo de o visual estar bom provavelmente é que o mesh não foi feito diretamente pelo GPT-5.5, mas por outra ferramenta
    Isso dá a sensação de que está chegando uma era parecida com a da Flash, em que jogadores ou desenvolvedores hobby conseguem criar rapidamente conceitos de jogo e publicá-los direto na web
    Em especial, o Three.js nem é uma engine de jogo, mas está virando praticamente uma ferramenta central para projetar jogos com IA

    • Venho experimentando com Three.js e IA nos últimos 3 anos, e no 5.4 senti um salto particularmente grande
      Olhando só para Three.js, foi o maior salto de uma geração para outra, especialmente em shaders GLSL, e também melhorou na estruturação de cenas divididas em várias páginas/componentes
      Criar shaders completos do zero ainda é difícil, mas a capacidade de modificar shaders existentes já está bem útil
      No 5.2 e abaixo, ele era realmente ruim no padrão one canvas, multiple page de manter um único canvas de fundo em várias rotas, mas o 5.4, embora ainda precise de alguma orientação, responde muito melhor a prompts de refatoração e otimização
      Estou animado para testar como o 5.5 se sai de verdade
    • Essa era tipo Flash já existe há algum tempo; o gargalo sempre foi a criatividade
    • Já recebi muita ajuda de LLMs em jogos e projetos baseados em Three.js e tive bons resultados
      Uma visualização de relógio bem esquisita que fiz também dependeu bastante disso
      Não é uma engine de jogo, mas para WebGL 3D na web é praticamente o padrão e, por ser antigo, tem uma quantidade enorme de dados de treinamento
      Antes dos LLMs, eu dependia mais do Babylon.js, que tem recursos de nível mais alto
    • Um conhecido meu está fazendo o Jamboree
      Antes o nome era Spielwerk, e é um app para criar e compartilhar jogos no iOS
      É tudo baseado na web, então compartilhar é fácil
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLMs ainda não conseguem fazer raciocínio espacial
      Não testei com GPT, mas com Claude, por melhor que fosse o prompt engineering, ele não conseguia resolver um cubo mágico, e o Opus 4.6 acertava só uns 70% do quebra-cabeça antes de travar
      Como cada tentativa custa 20 dólares, também fica inviável financeiramente
      Se fosse possível fazê-los realmente raciocinar em três dimensões, talvez desse para estender essa mesma abordagem a problemas de matemática que hoje eles não conseguem resolver
      Estou pensando em publicar meu servidor MCP do Cubo Mágico para desafiar alguém a resolver o cubo só com prompts
  • Nesta apresentação, a parte mais interessante do que os benchmarks foi que o Codex analisou algumas semanas de padrões reais de tráfego, aumentou a utilização de GPU e escreveu algoritmos heurísticos customizados para divisão e balanceamento de tarefas, elevando a velocidade de geração de tokens em mais de 20%
    Essa área em que LLMs agentivos conseguem fazer otimização de eficiência computacional desse tipo tem enorme impacto, mas parece ser menos testada do que benchmarks
    Pela minha experiência, o Opus ainda é melhor nisso do que GPT/Codex, mas como a OpenAI está obtendo ganhos práticos ao maximizar esse desempenho sob pressão de custo e capacidade, parece provável que continue empurrando nessa direção

    • Eu estava fazendo processamento de dados de alto desempenho em Rust e bati numa barreira em que precisava melhorar mais de 100 vezes
      Lembrei daquela antiga otimização famosa do code golf de FizzBuzz da Intel e pedi ao gemini pro, junto com meu código, para sugerir “otimizações inteligentes daquele tipo”, e as sugestões foram realmente excelentes
      Os LLMs continuam me surpreendendo todos os dias
    • O KernelBench já testa otimização de kernels CUDA
      E como todas as empresas sabem que otimizar sua infraestrutura e seus modelos é um caminho central para vencer a concorrência, imagino que estejam levando essa parte muito a sério
    • O problema desse tipo de afirmação é que ela é muito empírica e difícil de reproduzir
      É bom ir além de benchmarks tradicionais como MMLU, mas citar números assim sem experimentos controlados adequados não ajuda muito
  • Olhando os números de Mythos vs GPT-5.5, no SWE-bench Pro a diferença ainda é grande, mas no resto parecem bem parecidos
    SWE-bench Pro 77,8% vs 58,6%
    Terminal-bench-2.0 82,0% vs 82,7%
    GPQA Diamond 94,6% vs 93,6%
    H. Last Exam 56,8% vs 41,4%
    H. Last Exam (tools) 64,7% vs 52,2%
    BrowseComp 86,9% vs 84,4%, e no Pro 90,1%
    OSWorld-Verified 79,6% vs 78,7%
    A fonte dos números do Mythos é https://www.anthropic.com/glasswing

    • O Mythos só significa alguma coisa quando der para usar de verdade
      Hoje, ao usar o Opus 4.7, a autonomia parece absurdamente nerfada, e as restrições por causa da suposta segurança são pesadas demais
      Então não tenho muita confiança de que ele seja tão incrível na prática quanto a Anthropic anuncia
    • Segundo a página de lançamento da Anthropic, a equipe do Claude confirmou memorização do SWE-bench, e o teste realmente estava nos dados de treinamento
      Está aqui
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • Eu fui olhar com mais atenção o SWE-bench Verified, e os números do Mythos deixam várias dúvidas
      Peguei as submissões oficiais em https://github.com/SWE-bench/experiments/tree/main/evaluatio..., filtrei só os modelos a partir do Sonnet 4 e somei o resultado nos 500 problemas completos: a taxa de resolução combinada de todos os modelos deu exatamente 93%
      Mas o Mythos marcou 93,7%, o que implicaria resolver até problemas que nenhum outro modelo resolveu, e, ao olhar esses casos diretamente, tudo ficou ainda mais suspeito
      Os 7% restantes pareciam quase impossíveis de resolver sem ver o patch de teste antes, e a solução real seguia um caminho tão diferente da descrição do problema que parecia até resolver outro problema
      Não estou dizendo que o Mythos trapaceou, mas talvez ele memorize tão bem vários estados do repositório que consiga inferir a declaração real do problema só pelo diff armazenado na memória interna
      Sem isso, é difícil explicar como ele interpretaria descrições tão ambíguas com tanta precisão
    • Um benchmark único não significa absolutamente nada
      Sempre aparecem resultados estranhos em algum benchmark
  • Ainda acho decepcionante que a taxa de alucinação continue em 86%
    Em comparação, o Opus está em torno de 36%
    A fonte é https://artificialanalysis.ai/models?omniscience=omniscience...

    • É estranho o Grok estar em 17%, o que seria o menor valor, e a maioria dos modelos ficar acima de 80%
      Dependendo da pergunta, a alucinação parece até mais perto de 100%, então esse benchmark não bate muito com a intuição
    • Tem algo esquisito aí; o Haiku não parece ter como ir tão bem assim
    • Isso parece um sinal de que as empresas querem esse comportamento
      A pessoa que pergunta provavelmente não entende totalmente o problema, então, seja qual for o resultado, parece preferir uma resposta confiante
      O objetivo parece ser vender uma impressão de competência mais do que a capacidade real da tecnologia
      LLMs podem arruinar um produto, e, se algum bilionário acredita que sua máquina de pensar pode substituir funcionários e por isso decide despejar 75% do orçamento de trabalho nisso, só resta desejar boa sorte no tombo
  • Esse modelo é muito forte em tarefas de longa duração, e o Codex agora também tem heartbeats, então dá para continuar acompanhando o estado do trabalho
    Diz que, se você der um problema difícil que leve horas e tenha restrições verificáveis, vai perceber como ele é bom
    Diz que trabalha na OpenAI

    • Parece um ótimo recurso e quero testar logo
      Tenho me cansado de outros modelos ultimamente, especialmente o Opus, porque eles vivem parando no meio da tarefa
    • Na avaliação interna da Canva, o GPT-5.5 resolveu muitos desafios de fronteira de longa duração e, em vários casos, foi o primeiro modelo de IA que testamos a conseguir
      Parabéns pelo lançamento
    • Precisaria de uma explicação melhor do que exatamente são heartbeats