5 pontos por GN⁺ 2026-04-26 | 2 comentários | Compartilhar no WhatsApp
  • GPT-5.5 foi lançado na Chat Completions API e na Responses API, e o GPT-5.5 pro também foi adicionado às requisições da Responses API para problemas difíceis que se beneficiam de mais capacidade computacional
  • GPT-5.5 oferece suporte a janela de contexto de 1 milhão de tokens, entrada de imagem, saídas estruturadas, chamada de funções, cache de prompts, Batch, tool search, computer use integrado, hosted shell, apply patch, Skills, MCP e busca na web
  • O valor padrão de reasoning effort foi definido como medium, e quando image_detail não está definido ou está como auto, o comportamento anterior é mantido
  • O cache do GPT-5.5 funciona apenas com extended prompt caching e não oferece suporte a in-memory prompt caching: behavioral changes
  • Alterações de 21 de abril
    • GPT Image 2 foi lançado como o modelo de geração de imagens mais recente para criação e edição de imagens
    • GPT Image 2 inclui tamanhos de imagem flexíveis, entrada de imagem de alta fidelidade, cobrança de imagem baseada em tokens e suporte à Batch API com 50% de desconto

2 comentários

 
ragingwind 2026-04-26

Agora, a partir da 5.4, o pro não é mais oferecido na Chat Completions API.

 
GN⁺ 2026-04-26
Comentários do Hacker News
  • Testei na hora por causa de um problema em produção, e o GPT-5.5 fez uma coisa que o Claude não costuma fazer desse jeito
    Depois do troubleshooting, ele me fez usar uma instrução update, e quando eu disse "beleza, vamos envolver isso numa transaction e colocar rollback também", ele respondeu no estilo antigo:
    BEGIN TRAN;
    -- put the query here
    commit;
    só isso
    Já fazia um tempo que eu não precisava empurrar o modelo de novo para ele realmente fazer o que eu pedi, então isso foi bem chocante
    Entendo querer gastar menos tokens, mas estou pagando por um modelo de ponta, então é irritante quando ele vem com essa preguiça
    Só testei porque apareceu no seletor de modelos do Cursor

    • Desde o gpt-5.3-codex, as últimas 2 ou 3 gerações não pareceram uma grande melhora; dá mais a sensação de que foram mexendo nas coisas e criando tradeoffs diferentes
    • Posso ter entendido errado, mas fiquei curioso sobre o que exatamente foi o problema
      Se o problema foi ele colocar só -- put the query here na resposta e não repetir a query, eu não diria necessariamente que isso é um problema
      Se o objetivo real era obter a query para executar e você disse "vamos fazer isso numa transaction", então é bem razoável ele só te dizer para colocar um begin antes
      Se a query era longa, isso ainda economiza tokens, e é parecido com quando dá permission denied e, em vez de reescrever o comando inteiro, te dizem para só colocar sudo na frente
      Por outro lado, se você esperava que o modelo realmente executasse a query e ele veio com um "tá aqui, executa você", aí sim isso é claramente preguiçoso e dá para entender o espanto
    • A OpenAI parece ser a primeira empresa a finalmente alcançar inteligência suficiente para fazer o usuário trabalhar
      Dá até para pensar "então é assim que surge um emergent behavior"
      Brincadeiras à parte, essa obsessão da OpenAI por otimizar intelligence por token me lembra a fase da Apple antes do M1, quando estava obcecada em deixar o MacBook cada vez mais fino
      Passa a sensação de perseguir uma métrica única até o fim e sacrificar todo o resto
      O GPT-5.3+ claramente está entre os modelos mais inteligentes, mas às vezes é tão preguiçoso que fica doloroso trabalhar com ele
    • Não consigo sentir bem se esse caso é bom ou ruim
    • O GPT-5.5 parece capaz de destruir benchmarks quando o assunto é confiar no usuário
  • Acabei de rodar no meu benchmark de Wordpress+GravityForms, e ele ficou no fundo da tabela até em desempenho bruto, além de ter o pior custo-benefício: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Eu sei que é só um benchmark, mas não consigo entender como pode ser tão ruim assim

    • Parece aquele tipo de teste frouxo que um júnior mexendo numa área que mal conhece montaria na garagem e chamaria de benchmark
      Hoje em dia o significado das palavras se desfaz muito facilmente, então esse tipo de coisa ficou comum
      Até fóruns que antes eram cheios de gente que realmente fazia trabalho técnico agora parecem ser ocupados por uma massa de vibe researchers; quando passa de certo limiar de popularidade, sempre acaba assim
      O HN ainda parece um dos últimos redutos onde sobra alguma investigação séria, mas vendo o comentário original dá para notar que não é totalmente imune
    • No seu benchmark, o gemma4-e4b foi 50% melhor que o gemma4-26b; isso parece sinal de que tem algo errado
    • No seu benchmark, o Opus 4.7 ficou muito atrás do Sonnet 4.6, mas mesmo que isso seja verdade naquele teste, não representa o desempenho geral dos modelos
    • Então você viajou no tempo para trazer esse benchmark
      Eu até gostei desse tipo de benchmarking
      Fiquei curioso sobre como você avaliou o judge benchmark, porque eu também queria montar algo parecido por conta própria
    • Isso parece mais um benchmark de quão bem o modelo faz vibe coding
      O prompt é extremamente raso, mas os critérios de avaliação são muitos
  • Os preços por tamanho de contexto estão assim
    Entrada: $5/M até 272K, $10/M acima disso
    Saída: $30/M até 272K, $45/M acima disso
    Leitura de cache: $0.50/M até 272K, $1/M acima disso
    Passando de 272K, ele fica claramente mais caro que o Opus 4.7, e pelo menos nas minhas tarefas não pareceu ter eficiência de token suficiente para compensar
    Não foi o bastante para neutralizar essa diferença de preço
    O GPT-5.4 tinha como ponto forte o contexto de 400k e uma compaction confiável, e parece que os dois regrediram um pouco
    Dito isso, ainda é cedo para afirmar com certeza se a confiabilidade da compaction realmente piorou
    A saída de frontend também continua tendendo para aquele template azul cheio de cards chamativos
    É um estilo que já parecia suspeito desde a época do Horizon Alpha/Beta, antes do lançamento do GPT-5, mas naquela época a task adherence era tão boa que ainda valia a pena aceitar esse grande defeito
    Só que é estranho que o GPT-5.5, sendo vendido como uma foundation totalmente nova, ainda esteja tão limitado nisso

  • Os resultados de benchmark de raciocínio de programação geral do GPT 5.5 já subiram em https://gertlabs.com/
    Avaliações de decisão em tempo real e testes agentic mais pesados ainda devem ser adicionados ao longo de 24 horas, mas agora já não parece que o ranking do leaderboard vá mudar
    O GPT 5.5 é o modelo público mais inteligente e está claramente mais rápido que o anterior

  • Ontem disseram o seguinte

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Mas hoje já é isso aí
    Um dia ainda entra na categoria de "very soon", mas fiquei curioso sobre o que exatamente queriam dizer com esses safeguards e security requirements

    • Quando dizem que algo está atrasado por causa de safeguards, normalmente só querem dizer que não têm capacidade computacional total disponível agora mesmo
    • O GPT-5.5 já existia na API exclusiva do Codex, e lá diziam explicitamente que podia ser usado para outras finalidades também
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Então fico pensando se isso pode ter acelerado este lançamento
    • Tem alguém comandando a empresa que já mentiu de forma tão descarada sobre questões de segurança que eu sinceramente não entendo por que alguém esperaria algo diferente daqui para frente
      Há precedentes

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      O Altman já foi várias vezes tudo menos totalmente honesto sobre a importância de safety na OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Não sei se é só impressão minha, mas em cada notícia dessas sobre a OpenAI parece que aparecem comentaristas pagos ou bots tentando diminuir o Claude e empurrar a ideia de que o Codex é muito melhor
    É gente demais, e várias das alegações não batem com a experiência de quem usa Claude todo dia

    • Sim, é estranhamente esquisito
      Lembra um pouco como todo mundo parece ter esquecido que a OpenAI traiu a democracia ao concordar em colaborar com armas autônomas sem supervisão e vigilância doméstica em massa
    • Eu também acho isso bem evidente
      Pelo menos começou a ficar visível logo depois do hype do Opus 4.6
    • Claro que fazem isso
      Hoje em dia toda empresa empurrando o próprio produto faz mais ou menos o mesmo
  • Sou usuário Enterprise, mas ainda só vejo o 5.4
    No anúncio de ontem disseram que levaria algumas horas até o rollout para todo mundo, mas a OpenAI precisa melhorar o GTM para gerenciar expectativas

    • Acabei de atualizar e agora o 5.5 apareceu
      Bom ver que liberaram rápido
      Da próxima vez vou reclamar mais cedo
  • É o segundo modelo a tirar 25/25 no meu benchmark
    O primeiro foi o Opus 4.7, e os resultados estão aqui: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Mais barato e mais lento que o Opus

  • Na página da API, o knowledge cutoff aparece como 2025-12-01, mas se você perguntar diretamente ao modelo ele responde junho de 2024
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Não entendo por que esse assunto volta tanto
      Perguntar ao próprio modelo para verificar a data de cutoff sempre foi um dos métodos menos confiáveis
      Ele pode até ter aprendido com comentários como este
      Basta perguntar sobre algum evento que aconteceu logo antes de 2025-12-01
      Se possível, melhor ainda se for de partida esportiva
    • Fico em dúvida se dá mesmo para confiar no que o modelo diz
      Muitas páginas de API de modelos antigos também mostravam cutoff em junho de 2024, então ele pode simplesmente estar repetindo isso
    • O modelo não sabe a própria cutoff date se isso não for informado no prompt de sistema
      A forma correta de verificar o cutoff real é perguntar sobre algo que não existia ou não tinha acontecido antes daquela data
      Pelo que testei algumas vezes, o cutoff de conhecimento geral do 5.5 ainda parece ficar em algum ponto do começo de 2025
    • Então daria para testar perguntando quem venceu a eleição presidencial dos EUA de 2024
  • A combinação GPT 5.5 + Codex está muito boa mesmo
    Seja para tirar dúvidas, montar planos ou implementar código, agora eu já quase delego sem hesitar
    O Opus 4.7 ainda me faz ficar conferindo tudo em dobro
    Ele segue mal as instruções de CLAUDE.md, alucina bastante e, quando não acha a resposta, tende a inventar uma por padrão, então isso pesa muito
    No ano passado o pessoal foi rapidíssimo em dizer que a OpenAI tinha ficado para trás, que era code red, mas olhando agora a situação mudou completamente