Clusterização de tokens de raciocínio do GPT-5.5 Codex pode levar à queda de desempenho
(github.com/openai)- A issue #30364 do OpenAI Codex relata que a concentração dos
reasoning_output_tokensdas respostas dogpt-5.5em valores fixos como 516, 1034 e 1552 pode estar relacionada à queda de qualidade em tarefas complexas do Codex - A análise cobre metadados
token_countdo Codex de 1º de fevereiro a 27 de junho de 2026 UTC, com 390.195 registros de respostas e 3.363 eventos exact 516 identificados em 865 sessões - O
gpt-5.5representou 19,3% de todas as respostas, mas respondeu por 82,0% dos eventos exact-516; entrereasoning_output_tokens >= 516, a proporção de exact 516 foi de 44,0%, muito acima dos 1,3% dos modelos non-GPT-5.5 - A proporção mensal de exact-516 subiu de 0,11% em fevereiro de 2026 para 53,30% em maio e 35,84% em junho, enquanto a média e o P90 de tokens de raciocínio caíram no mesmo período, indicando que não se tratava simplesmente de aumento no uso de tokens de raciocínio
- Comentários posteriores compartilharam clusterização semelhante em 516 e algumas reproduções de respostas incorretas no Codex CLI, Codex Desktop e OpenCode; como mitigação temporária, também foi proposto um proxy local que detecta o padrão
518·n−2e continua o raciocínio
Problema central da issue
- A issue #30364 do Codex relata um padrão de concentração excessiva em
reasoning_output_tokens = 516nos metadadostoken_countdas respostas dogpt-5.5 - Além disso, afirma que também aparecem picos perto de
1034e1552, como se fossem limites fixos - O escopo levantado não é uma alegação de que isso prove truncamento de chain-of-thought oculto
- A afirmação mais restrita é que a telemetria do Codex mostra uma anomalia de clusterização em tokens fixos específica do
gpt-5.5 - A questão é apresentada no sentido de que esse padrão parece consistente com um comportamento de orçamento de raciocínio baseado em limiares
- A afirmação mais restrita é que a telemetria do Codex mostra uma anomalia de clusterização em tokens fixos específica do
- A issue relacionada #29353 tratou de uma reprodução em unidade de tarefa na qual uma execução do
gpt-5.5terminava exatamente em 516 reasoning tokens e retornava uma resposta errada; esta issue acrescenta evidências agregadas de um período maior
Ambiente de análise e dados
- O produto é o Codex, e o modelo mais relevante é
gpt-5.5 - A fonte de dados são os metadados
token_countdo Codex - O período de análise é de 1º de fevereiro a 27 de junho de 2026 UTC
- Números agregados:
- Registros de tokens em nível de resposta: 390.195
- Sessões: 865
- Eventos exact
reasoning_output_tokens = 516: 3.363 - Participação do
gpt-5.5no total de respostas: 19,3% - Participação do
gpt-5.5nos eventos exact-516: 82,0% - Proporção exact-516 / >=516 do
gpt-5.5: 44,0% - Proporção exact-516 / >=516 dos non-GPT-5.5: 1,3%
Padrões por modelo e por mês
- A proporção exact 516 / >=516 por modelo é mais evidente no
gpt-5.5gpt-5.5: 75.401 registros, 44,0%gpt-5.4: 25.214 registros, 19,8%gpt-5.2: 247.575 registros, 0,34%gpt-5.3-codex: 13.333 registros, 0,0%gpt-5.3-codex-spark: 26.179 registros, 0,0%
- A clusterização mensal de exact-516 disparou em maio de 2026
- Fevereiro: 0,11%
- Março: 2,45%
- Abril: 4,25%
- Maio: 53,30%
- Junho: 35,84%
- No mesmo período, a intensidade geral de tokens de raciocínio caiu
- Média de reasoning tokens: fevereiro 268,1 → maio 106,9 → junho 168,5
- P90 de reasoning tokens: fevereiro 772 → maio 344 → junho 515
- Por causa dessa combinação, foi levantado o problema de que o aumento de exact-516 é difícil de explicar como simples aumento no uso de tokens de raciocínio
Itens solicitados para verificação interna
- Foi solicitado à equipe do Codex que investigue se o orçamento de raciocínio, roteamento, truncamento, fallback ou comportamento do scheduler do
gpt-5.5pode causar encerramentos perto de 516/1034/1552 - Caso esse comportamento seja intencional, o pedido inclui esclarecer se exact 516 é um ponto normal de término, um limite de orçamento, um degraded tier ou outro limiar interno
- Procedimento de verificação proposto:
- Consultar eventos
token_countque incluamreasoning_output_tokenspor modelo - Comparar contagens de valores exatos
0,516,1034,1552 - Calcular
count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516)por modelo e data - Comparar
gpt-5.5comgpt-5.2,gpt-5.4e variantes específicas do Codex - Reexecutar tarefas complexas no GPT-5.2 e no GPT-5.5, separando respostas exact-516 de respostas com raciocínio mais longo para avaliar a qualidade
- Consultar eventos
Reproduções adicionais e dados cruzados nos comentários
- O GitHub Actions marcou #29353 como possível duplicata relacionada
- Vários usuários comentaram que passaram pelo mesmo problema, e um deles avaliou que esta issue é um relato mais orientado por dados do que a issue anterior
sinnet3000apresentou dados cruzados entre clientes a partir de armazenamentos locais de sessões do Codex CLI e do OpenCode- Em cerca de 22,7 mil eventos
token_countdo Codex em~/.codex/sessionsearchived_sessions, ogpt-5.5teve 4.300 records, 156 >=516, 88 exact 516, proporção de 56,4% - Em cerca de 32,1 mil assistant messages do
opencode.dbdo OpenCode, ogpt-5.5teve 6.977 records, 126 >=516, 90 exact 516, proporção de 71,4% - Em cerca de 24 mil records somados de modelos non-OpenAI com volume, como Kimi, DeepSeek, MiMo, MiniMax, Gemini, Qwen e GLM, houve 0 caso de exact 516
- Esses dados vieram com a ressalva de que não avaliavam se as respostas estavam certas ou erradas, apenas confirmavam a existência da clusterização exact 516
- Em cerca de 22,7 mil eventos
kyleboddyrelatou uma diferença de comportamento relacionada no Codex Desktop no Windows 11- Executou o mesmo candy prompt em 5 threads fresh projectless do Codex Desktop
- Execuções rápidas direct-
final_answerretornaram29, uma resposta errada - Execuções mais lentas em que
commentaryapareceu primeiro retornaram21, a resposta correta - Ele afirmou que, em threads fresh do Desktop hospedadas no Windows, não foi possível extrair o valor exato de
reasoning_output_tokens, portanto não dá para dizer que a execução errada foi exatamente 516
- O mesmo usuário também agregou a clusterização de valores fixos de
gpt-5.5 / xhighnos metadados de sessões locais- records 16.141, sessions 51, média de reasoning 149,7, P90 429
=516438 casos,>=5161.298 casos, proporção de 33,74%=103452 casos,=155214 casos,=207016 casos,=258812 casos,=31065 casos
Resultados de reprodução no Codex Linux CLI
kyleboddydisse ter reproduzido também no Codex Linux CLI usando o mesmo candy prompt- Ambiente:
- Produto: Codex CLI
- Versão:
codex-cli 0.142.5 - Plataforma: Ubuntu Linux
6.8.0-111-generic, x86_64 - Node:
v24.14.0 - Modo de autenticação: ChatGPT
- Modelo testado:
gpt-5.5 - reasoning efforts:
xhigh,high - Modelo de controle:
gpt-5.4 xhigh
- O prompt perguntava o número mínimo de retiradas em um problema de saco de doces em que é possível distinguir shapes pelo tato, sem usar ferramentas externas
- A resposta esperada foi confirmada de forma independente por enumeração brute-force como 21
- A explicação incluía que, como é possível distinguir shapes pelo tato, é possível planejar 9 doces round + 12 star
- Resultados:
- As 4 execuções concluídas de
gpt-5.5 xhighforam todas comreasoning_output_tokens = 516, e as respostas finais23,26,28,15foram todas erradas - As 3 execuções de
gpt-5.5 hightambém foram todas516, com respostas22,21,27, ou seja, apenas 1 correta - As 3 execuções de
gpt-5.4 xhighusaram 6211, 12274 e 10876 reasoning tokens e todas responderam21, corretamente
- As 4 execuções concluídas de
- Esse resultado reforça a afirmação restrita de que o
gpt-5.5pode entrar em um caminho fixo de 516 tokens no Codex e que esse caminho pode estar correlacionado a queda de qualidade na tarefa
Proposta de workaround temporário
dzshzxpropôs o proxy local Responses codexcomp, colocado na frente do Codex enquanto se aguarda uma correção upstream- O funcionamento considera o padrão
518·n−2como truncamento e continua o raciocínio- Rounds terminados com
reasoning_tokens == 518·n − 2, ou seja, 516, 1034, 1552 etc., são tratados como truncated - O tentative output é descartado, e os reasoning items e o
encrypted_contentdaquele round são reproduzidos como próxima entrada - Uma mensagem com
phase:"commentary"e"Continue thinking..."é incluída junto - Todos os rounds são dobrados em uma única downstream response, para que ao Codex pareça uma resposta concluída
- Rounds terminados com
- A configuração usa a chave oficial top-level
openai_base_url- Exemplo:
openai_base_url = "http://127.0.0.1:8787/v1" - O provider built-in
openaié mantido, então session grouping, remote compaction e remote-control continuam funcionando, segundo o relato
- Exemplo:
- O exemplo de logs reais mostra um caso em que, após dois 516 consecutivos, o terceiro round terminou de forma clean e a resposta final estava correta
- round 1: reason=516 → continue
- round 2: reason=516 → continue
- round 3: reason=291 → clean
- Ressalvas:
- É um workaround não oficial e depende de comportamento não contratual do upstream
- Rounds de continuação usam tokens reais adicionais
- É limitado por uma janela
ne por um teto de 3 continuações - É loopback-only, com auth passthrough, e afirma não ler nem armazenar credentials
1 comentários
Opiniões no Hacker News
Isso parece bem sério e também é fácil de reproduzir com o codex cli
Se você der um prompt de puzzle que exige raciocínio, às vezes ele parece ser interrompido de repente, usa exatamente 516 tokens de pensamento e dá uma resposta errada
Quando usa 6.000 a 8.000 tokens de pensamento, ele chega à resposta correta
Pode ser um problema na parte de pensamento adaptativo (adaptive thinking), e é mais um ponto a favor de modelos locais, já que eles não exigem preocupação com mudanças silenciosas do lado do servidor
Rodei o mesmo prompt 10 vezes e 4 deram esse problema dos 516 tokens; todas essas 4 respostas estavam erradas. A amostra é pequena, mas parece que o 5.5 xhigh pode ser encurtado em quase metade das vezes, degradando o desempenho
O espaço de problemas é infinitamente amplo, e é difícil julgar quanto é preciso pensar apenas pela similaridade entre prompts. O modelo já para de pensar mesmo antes de atingir o orçamento de raciocínio
Não sei por que gastam tanto esforço implementando pensamento adaptativo; talvez fosse melhor treinar o modelo para emitir melhor um token de encerramento de pensamento
Parece um remendo. O modelo deveria ser treinado para fazer uma quantidade adequada de raciocínio: raciocinar → estimar a incerteza restante → decidir se continua → raciocinar mais → repetir
Quase todo dia passei por quedas de qualidade em degraus, e normalmente usava xhigh
A experiência que eu tinha no começo do ano, de depender da codificação excepcionalmente cuidadosa do Codex, desapareceu; começaram a aparecer, de vez em quando, implementações absurdamente burras, então mudei para o Claude até a OpenAI tratar esse problema com seriedade
Pessoalmente, venho observando isso há meses, e não parecia que a OpenAI estivesse levando a sério
Por isso fui migrando de 5.5 high → 5.5 xhigh → 5.4 high
O 5.4 high ficou totalmente estável nas últimas 3 semanas, e por enquanto estou satisfeito com ele
Às vezes ainda rodo tarefas no 5.5 xhigh para ver se ele voltou a ficar 100% estável, mas neste momento acho que eles estão mais esperando lançar o 5.6 do que corrigir esse problema de confiabilidade
Parece déjà vu. É exatamente igual à regressão de desempenho do Claude Code em abril. Na época, cancelei a assinatura do Claude e migrei para o Codex
Agora estou pensando em usar ambos com cobrança por token e, para a maioria das tarefas, usar o GLM 5.2 da Fireworks, pagando pelos modelos grandes só quando necessário. Mas não tenho certeza se o ponto de equilíbrio fecha
Mesmo que não seja intencional, não quero aceitar nem viabilizar uma estrutura que lucra com um produto de qualidade degradada
Desde o lançamento do ChatGPT, modelos open source e ambientes de execução abertos, como coisas do tipo Pi, nunca pareceram tão atraentes
Agora estou pensando em como ganhar US$ 65.000 a mais para não ter que me preocupar de novo com esse tipo de besteira. Conheço a economia de algo como o OpenRouter
Isso me lembra a época por volta de 2008, quando “cloud” começou a virar termo de marketing. Parecia uma embalagem para reduzir as expectativas em relação a clientes ricos e aumentar as margens das empresas com modelos de assinatura que corroíam a propriedade local
Depois fiquei cansado do entusiasmo e do absolutismo em torno de “software realmente livre e open source” e deixei para lá, achando que eu era jovem demais
Na verdade, consigo entender ou tolerar muitos modelos de assinatura até certo ponto. Criar software custa caro, e talvez não seja justo enxergar o valor de um upgrade anual do Photoshop em 2026 como US$ 200. Mas mudar caprichosamente uma UI que funcionava bem havia 20 anos e remover completamente coisas como as amostras de cores clássicas é burrice
Aí dá para usar o Codex, uma ferramenta essencial de trabalho que custa US$ 200 por mês, para criar um plugin de amostras clássicas
US$ 200 por mês é justo para o meu uso de tokens? Em meses de uso muito intenso, talvez eu tenha usado algo como 1 bilhão de tokens
Mas esse é justamente o problema. Eles vão continuar puxando alavancas sem parar, sem que saibamos qual rentabilidade específica faz sentido para eles, e, olhando sinais como vencimentos de dívida, parece que isso vai continuar pelo menos até 2030 ou 2032
Não quero pensar em nada disso. Não quero avaliar preferências de modelo e degradação de desempenho, nem ficar atualizando continuamente as nuances de como falo com a IA de acordo com experimentos misteriosos de backend que podem estar rodando sobre as saídas que uso em entregáveis pelos quais sou pago para criar e manter
A IA fica em algum ponto entre ferramenta e colaborador, e mudanças temperamentais de “personalidade” causadas por mexerem, na etapa de raciocínio, em botões e alavancas mal compreendidos me deixam louco. Por isso quero apontar para uma caixa no canto e saber exatamente qual qualidade de saída vou obter, sem que ninguém além de mim a altere
O que mudou recentemente em degraus não foi o desempenho do modelo, mas a quantidade de choradeira e reclamação dos programadores
É bom que, por o Codex ser open source, esse tipo de problema possa aparecer e ser tratado publicamente
No geral, sou grato por o Codex ser open source, mas, nessa categoria de problema, como o modelo continua fechado, isso não parece ter grande significado
Talvez minha memória esteja ruim, mas, pelo uso de tokens e pela qualidade do código, acho que a 5.3 foi a melhor. A 5.5 funciona melhor, mas devora tokens completamente
Ao contrário do 5.5 ou do Opus, era barato e eficiente o bastante para usar em praticamente qualquer tarefa, ainda assim bastante bom, e eu o preferia ao Sonnet
Alguns dias atrás, acho que alguém aqui disse que a OpenAI tinha reduzido o custo computacional pela metade com uma otimização revolucionária; seria isso?
O texto dizia, segundo uma pessoa familiarizada com a discussão, que “engenheiros da OpenAI disseram a alguns colegas no início deste mês que haviam encontrado uma forma de reduzir em mais da metade o custo de executar modelos existentes, isto é, de inferência, graças a uma otimização recém-descoberta”
No meu caso, esse efeito aparece quando olho para o conteúdo de raciocínio criptografado pelo tamanho da string em base64. Mas não aparece nos tokens de raciocínio informados pelo servidor
Por isso achei que fosse puramente parte da criptografia ou da ofuscação, e não um problema real
A maior desvantagem do GPT é que o processo de pensamento é criptografado, então ele é mais caixa-preta do que Kimi, GLM e DeepSeek. Ainda assim, dá para receber um resumo do raciocínio, então, embora seja estranho, é utilizável
Será que este é um caso raro em que “deixaram o modelo burro” não é a paranoia habitual dos usuários, mas realmente deixaram o modelo burro?
Os detalhes da issue não são evidência de um enfraquecimento deliberado às escondidas; na verdade, são quase o oposto. A causa raiz é tosca e nem é particularmente discreta, a ponto de um usuário comum conseguir relatar detalhes precisos e verificáveis de forma independente
A expressão “paranoia habitual dos usuários” não é justa nem do meu gosto. Quando tudo o que se tem é um endpoint de API que parece uma pia mágica, engolindo a janela de contexto e cuspindo a saída seguinte, só restam julgamentos subjetivos, suposições e desconfiança
Mesmo que exista uma suíte padronizada de testes de modelo, alegar enfraquecimento às escondidas acaba sendo uma tentativa de ler as intenções das pessoas da empresa. A qualidade do modelo pode cair mesmo sem intenção explícita ou downgrade da infraestrutura subjacente
Fazer teorias da conspiração em tom de brincadeira ou considerar a possibilidade de um enfraquecimento real não é, por si só, doença mental. Não gosto dessa tendência de abusar de termos de diagnóstico psicológico dessa forma
Claro, pode haver pessoas excessivamente convictas nesse julgamento, e isso pode se aplicar a elas, mas são uma minoria. No fim, é apenas exagero, e não ajuda ninguém
É engraçado venderem assinaturas de modelos de fronteira e depois nerfarem rapidamente com o tempo sem ninguém falar disso
Se reduzem silenciosamente a intensidade de inferência no lado do servidor, deveriam pelo menos dar um desconto
Por outro lado, eu uso o 5.5-high todos os dias em fluxos paralelos com várias tarefas, e mal consigo esgotar o limite semanal. Não sou rápido o suficiente como Human-as-a-Service para acompanhar e ler todo o planejamento e a implementação. Também existe esse lado
Parece claro que, para otimizar throughput, estão agrupando a inferência de raciocínio em múltiplos de 512 tokens para processar em batch
Também poderia ser uma forma muito desonesta de escalar para atender à demanda nos horários de pico. Sei que neste tópico já há pessoas ridicularizando a subjetividade da percepção de desempenho dos modelos, mas, pelo menos nos meus testes ao longo de maio, o modelo parecia menos inteligente nos horários em que os EUA ficavam online
Algumas semanas atrás, em um post no blog da empresa, percebi um padrão mais consistente nesses horários sobrepostos e senti que precisava apontar isso. Eu deveria ter salvado os logs das sessões para uma análise adicional https://webesque.agency/blog/2026-06-19-llms.html