5 pontos por GN⁺ 4 일 전 | 2 comentários | Compartilhar no WhatsApp
  • GPT-5.5 é o modelo mais recente adicionado à Chat Completions API e à Responses API, e o GPT-5.5 pro também foi adicionado às requisições da Responses API para problemas difíceis em que mais capacidade de computação é vantajosa
  • Oferece amplo suporte a janela de contexto de 1 milhão de tokens, entrada de imagem, saída estruturada, chamada de função, prompt caching, Batch, tool search, computer use embutido, hosted shell, apply patch, Skills, MCP e pesquisa na web
  • O valor padrão de reasoning effort foi definido como medium, e quando image_detail não está definido ou está como auto, o comportamento anterior é mantido
  • O caching do GPT-5.5 funciona apenas com extended prompt caching e não oferece suporte a in-memory prompt caching
  • O fluxo recente de mudanças na API está se expandindo além do lançamento de modelos para incluir image, audio, realtime, video e ferramentas de agent, e a linha GPT-5.5 ocupa posição de destaque entre as adições principais mais recentes

Changelog

Abril de 2026

  • 24 de abril

    • GPT-5.5 foi lançado na Chat Completions API e na Responses API, e o GPT-5.5 pro também foi adicionado às requisições da Responses API para problemas difíceis em que mais capacidade de computação é vantajosa
    • O GPT-5.5 oferece suporte a janela de contexto de 1 milhão de tokens, entrada de imagem, saída estruturada, chamada de função, prompt caching, Batch, tool search, computer use embutido, hosted shell, apply patch, Skills, MCP e pesquisa na web
    • Entre as principais mudanças, o valor padrão de reasoning effort foi definido como medium
    • Quando image_detail não está definido ou está como auto, é usado o comportamento anterior
    • O caching do GPT-5.5 funciona apenas com extended prompt caching e não oferece suporte a in-memory prompt caching
  • 21 de abril

    • GPT Image 2 foi lançado como o modelo de geração de imagens mais recente para criação e edição de imagens
    • O GPT Image 2 inclui tamanhos de imagem flexíveis, entrada de imagem de alta fidelidade, cobrança de imagem baseada em tokens e suporte à Batch API com 50% de desconto
  • 15 de abril

    • Novos recursos foram adicionados ao Agents SDK
      • É possível executar agents em um sandbox controlado
      • É possível inspecionar e personalizar o harness open source
      • É possível controlar quando a memory é criada e onde ela é armazenada

Março de 2026

  • 17 de março

    • GPT-5.4 mini e GPT-5.4 nano foram lançados na Chat Completions API e na Responses API
    • O GPT-5.4 mini oferece desempenho de nível GPT-5.4 em uma forma mais rápida e eficiente, adequada para workloads de alto throughput
    • O GPT-5.4 nano é otimizado para tarefas simples em grande volume, nas quais velocidade e custo são os fatores mais importantes
    • O GPT-5.4 mini oferece suporte a tool search, computer use embutido e compaction
    • O GPT-5.4 nano oferece suporte a compaction, mas não a tool search nem computer use
  • 16 de março

    • O slug gpt-5.3-chat-latest foi atualizado para apontar para o modelo mais recente usado atualmente no ChatGPT
  • 13 de março

    • O encoder de imagem foi atualizado para corrigir um pequeno bug que ocorria na entrada input_image do GPT-5.4
    • A qualidade pode melhorar em alguns casos de uso de entendimento de imagem
    • Nenhuma ação adicional é necessária
  • 12 de março

    • A Sora API foi expandida com character reference reutilizável, gerações mais longas de até 20 segundos, saída 1080p para sora-2-pro, video extension e suporte à Batch API para POST /v1/videos
    • A geração em 1080p do sora-2-pro é cobrada a $0.70 por segundo
    • Mais detalhes: video generation guide
  • Atualização de 12 de março

    • POST /v1/videos/edits foi adicionado para edição de vídeos existentes
    • POST /v1/videos/{video_id}/remix é a rota que isso substitui e está prevista para descontinuação em 6 meses
    • Mais detalhes: edit existing videos
  • 5 de março

    • GPT-5.4 foi lançado na Chat Completions API e na Responses API, e o GPT-5.4 pro foi adicionado à Responses API para problemas difíceis em que mais capacidade de computação é vantajosa
    • O tool search da Responses API foi lançado junto, permitindo que o modelo adie uma grande tool surface até o runtime para reduzir o uso de tokens, preservar o desempenho de cache e melhorar a latência
    • Foi adicionado ao GPT-5.4 suporte a computer use embutido por meio da ferramenta computer da Responses API, possibilitando interação de UI baseada em screenshots
    • Para workflows de agent de execução mais longa, ele oferece uma janela de contexto de 1 milhão de tokens e suporte nativo a Compaction
  • 3 de março

    • gpt-5.3-chat-latest foi lançado na Chat Completions API e na Responses API
    • Esse modelo aponta para o snapshot GPT-5.3 Instant atualmente usado no ChatGPT
    • Mais detalhes: gpt-5.3-chat-latest

Fevereiro de 2026

  • 24 de fevereiro

    • Ampliação do suporte a input_file para aceitar mais formatos de arquivos de documentos, apresentações, planilhas, código e texto
    • Mais detalhes: file inputs
  • 24 de fevereiro Responses API

    • Adição de phase à Responses API
    • Rotulagem das mensagens do assistant separando a explicação intermediária commentary da resposta final final_answer
    • Mais detalhes: phase
  • 24 de fevereiro gpt-5.3-codex

    • Lançamento de gpt-5.3-codex na Responses API
    • Mais detalhes: gpt-5.3-codex
  • 23 de fevereiro

    • Introdução do WebSocket mode na Responses API
    • Mais detalhes: websocket mode
  • 23 de fevereiro modelos de áudio e em tempo real

    • Lançamento de gpt-realtime-1.5 na Realtime API
    • Lançamento de gpt-audio-1.5 na Chat Completions API
  • 10 de fevereiro GPT Image Batch

    • Suporte da Batch API para gpt-image-1.5, chatgpt-image-latest, gpt-image-1, gpt-image-1-mini
  • 10 de fevereiro gpt-5.2-chat-latest

    • O slug gpt-5.2-chat-latest foi atualizado para apontar para o modelo mais recente usado atualmente no ChatGPT
  • 10 de fevereiro compaction

  • 10 de fevereiro Skills

    • Introdução do suporte a Skills na Responses API
    • Suporte a Skills tanto em execução local quanto em execução baseada em hosted container
  • 10 de fevereiro Hosted Shell

    • Introdução da nova ferramenta Hosted Shell, com suporte também a rede dentro do contêiner
  • 9 de fevereiro

    • Adição de suporte a requisições application/json em /v1/images/edits do modelo GPT image
    • As requisições JSON usam referências image_url ou file_id em images e mask opcional em vez de upload multipart
  • 3 de fevereiro

    • Otimização da stack de inferência para clientes da API, fazendo com que GPT-5.2 e GPT-5.2-Codex rodem cerca de 40% mais rápido
    • O modelo e os pesos do modelo não mudaram

Janeiro de 2026

  • 15 de janeiro

    • Anúncio do Open Responses
    • Especificação open source para uma interface de LLM interoperável e multi-provider construída sobre a OpenAI Responses API
  • 14 de janeiro

    • Lançamento de gpt-5.2-codex na Responses API
    • GPT-5.2-Codex é uma variante do GPT-5.2 otimizada para tarefas de agentic coding no Codex ou em ambientes semelhantes
    • Mais detalhes: gpt-5.2-codex
  • 13 de janeiro Realtime SIP

    • Adição de uma faixa de IP SIP dedicada à Realtime API
    • sip.api.openai.com faz roteamento GeoIP e envia o tráfego SIP para a região mais próxima
    • Mais detalhes: dedicated SIP IP ranges
  • 13 de janeiro atualização de slugs de modelos

    • Os slugs gpt-realtime-mini e gpt-audio-mini foram atualizados para apontar para o snapshot 2025-12-15
    • Se você precisar dos snapshots anteriores dos modelos, use gpt-realtime-mini-2025-10-06 e gpt-audio-mini-2025-10-06
    • O slug sora-2 foi atualizado para apontar para sora-2-2025-12-08
    • Se você precisar do snapshot anterior de sora-2, use sora-2-2025-10-06
    • Os slugs gpt-4o-mini-tts e gpt-4o-mini-transcribe foram atualizados para apontar para o snapshot 2025-12-15
    • Se você precisar dos snapshots anteriores dos modelos, use gpt-4o-mini-tts-2025-03-20 e gpt-4o-mini-transcribe-2025-03-20
    • Atualmente, é recomendado usar gpt-4o-mini-transcribe em vez de gpt-4o-transcribe para obter os melhores resultados
  • 9 de janeiro

    • Correção de um problema em /v1/images/edits no qual gpt-image-1.5 e chatgpt-image-latest usavam high fidelity por engano mesmo quando fidelity era explicitamente definido como low

Dezembro de 2025

  • 19 de dezembro

    • gpt-image-1.5 e chatgpt-image-latest foram adicionados à ferramenta de geração de imagens da Responses API
  • 16 de dezembro

  • 15 de dezembro

    • Quatro novos snapshots de áudio com data foram lançados
    • Esta atualização melhora a confiabilidade, a qualidade e a fidelidade de voz de aplicações em tempo real baseadas em voz
    • Mais detalhes: updates audio models
    • gpt-realtime-mini-2025-12-15
    • gpt-audio-mini-2025-12-15
    • gpt-4o-mini-transcribe-2025-12-15
    • gpt-4o-mini-tts-2025-12-15
    • Este lançamento também inclui suporte a Custom voices para clientes elegíveis
  • 11 de dezembro GPT-5.2

    • GPT-5.2 foi lançado como o mais novo modelo flagship da família GPT-5
    • Em comparação com o GPT-5.1, houve melhorias em inteligência geral, seguimento de instruções, precisão e eficiência de tokens, multimodalidade especialmente visão, geração de código especialmente geração de UI frontend, tool calling e gerenciamento de contexto na API, além de entendimento e geração de planilhas
    • Foram adicionados o nível de reasoning effort xhigh, um reasoning summary conciso e um novo gerenciamento de contexto com uso de compaction
  • 11 de dezembro client-side compaction

    • client-side compaction foi lançado
    • Em conversas de longa duração na Responses API, é possível reduzir o contexto enviado a cada turno com o endpoint /responses/compact
  • 4 de dezembro

    • gpt-5.1-codex-max foi lançado na Responses API
    • GPT-5.1-Codex é o modelo de codificação mais inteligente, otimizado para tarefas de agentic coding de longo horizonte
    • Mais detalhes: gpt-5.1-codex-max

Novembro de 2025

  • 20 de novembro

    • Foi adicionado suporte a entrada de teclas DTMF na Realtime API
    • É possível receber eventos DTMF ao usar uma Realtime sideband connection
    • Mais detalhes: dtmf_event_received
  • 13 de novembro GPT-5.1

    • GPT-5.1 foi lançado como o mais novo modelo flagship da família GPT-5
    • Foi treinado para ser especialmente forte em steerability, respostas mais rápidas em situações que exigem menos reflexão, geração de código e casos de uso de coding, além de agentic workflow
    • O GPT-5.1 usa por padrão a nova configuração de reasoning none para respostas rápidas em situações que exigem menos reflexão
    • Esse padrão é diferente do padrão anterior medium do GPT-5
  • 13 de novembro RBAC

  • 13 de novembro GPT-5.1-Codex

    • gpt-5.1-codex e gpt-5.1-codex-mini foram lançados na Responses API
    • GPT-5.1-Codex é uma variante do GPT-5.1 otimizada para tarefas de agentic coding no Codex ou em ambientes semelhantes
    • Mais detalhes: gpt-5.1-codex
  • 13 de novembro extended prompt caching

    • extended prompt cache retention foi lançado
    • Mantém o prefixo em cache ativo por mais tempo, por até 24 horas
    • Quando a memória fica cheia, descarrega os tensores key/value para o armazenamento local da GPU, aumentando bastante a capacidade de armazenamento disponível para cache

Outubro de 2025

Setembro de 2025

  • 26 de setembro

  • 23 de setembro

    • Lançamento do gpt-5-codex como modelo de propósito específico
    • Construído e otimizado para uso com o Codex CLI

Agosto de 2025

  • 28 de agosto

  • 21 de agosto

    • Adicionado suporte a connectors na Responses API
    • Connectors são wrappers MCP mantidos pela OpenAI para serviços populares como Google apps e Dropbox, e podem ser usados para dar ao modelo acesso de leitura a dados armazenados nesses serviços
  • 20 de agosto

    • Lançamento da Conversations API
    • Junto com a Responses API, permite criar e gerenciar conversas de longa duração
    • É possível ver como migrar da integração da Assistants API para Responses e Conversations, além de uma comparação lado a lado, no migration guide
  • 7 de agosto

    • Lançamento na API dos modelos da família GPT-5 gpt-5, gpt-5-mini e gpt-5-nano
    • Introduzido o valor minimal de reasoning effort para otimização de respostas rápidas em modelos GPT-5 com suporte a reasoning
    • Introduzido o tipo custom de tool call, que permite entrada e saída em formato livre

Junho de 2025

  • 27 de junho

    • Lançado suporte a Priority processing
    • Oferece latência muito menor e mais consistente do que o Standard processing, mantendo a flexibilidade de cobrança por uso
  • 24 de junho

  • 13 de junho

    • Novos reusable prompts passaram a poder ser usados no Dashboard e na Responses API
    • Na API, é possível referenciar templates criados no Dashboard com o parâmetro prompt, enviando junto o id do prompt, version opcional e variables dinâmicas que podem incluir entradas de string, imagem e arquivo
    • reusable prompts não podem ser usados no Chat Completions
    • Mais detalhes: reusable prompts
  • 10 de junho

    • Lançado o3-pro na Responses API e na Batch API
    • Usa mais computação do que o modelo de reasoning o3 para responder a problemas difíceis com reasoning e consistência melhores
    • Os preços do modelo o3 foram reduzidos em todas as requisições de API, incluindo batch e flex processing
  • 4 de junho

  • 3 de junho

Maio de 2025

  • 20 de maio ferramentas integradas

  • 20 de maio schema

    • Passou a ser possível usar o modo strict em schemas de ferramentas durante parallel tool calling de modelos sem fine-tuning na Responses API e na Chat Completions API
    • Também foram adicionados novos schema features, incluindo validação de strings para email e outros padrões, além de definição de intervalos para números e arrays
  • 15 de maio

  • 7 de maio

Abril de 2025

  • 30 de abril

  • 23 de abril

    • Adicionado o modelo de geração de imagem gpt-image-1
    • Esse modelo melhora qualidade e instruction following, estabelecendo um novo padrão para geração de imagens
    • Os endpoints de Image Generation e Edit também foram atualizados para suportar novos parâmetros exclusivos do gpt-image-1
  • 16 de abril

    • Adicionados o3 e o4-mini, dois modelos de reasoning da série o, à Chat Completions API e à Responses API
    • Estabelecem um novo padrão em matemática, ciência, programação, tarefas de visual reasoning e redação de documentos técnicos
    • Também foi lançado o Codex, ferramenta de CLI para geração de código
  • 14 de abril

    • Adicionados gpt-4.1, gpt-4.1-mini e gpt-4.1-nano à API
    • Oferecem instruction following, programação e uma janela de contexto maior de até 1 milhão de tokens
    • gpt-4.1 e gpt-4.1-mini suportam supervised fine-tuning
    • Também foi anunciado o fim do suporte ao gpt-4.5-preview

Março de 2025

  • 20 de março

    • Adicionados os modelos gpt-4o-mini-tts, gpt-4o-transcribe, gpt-4o-mini-transcribe e whisper-1 à Audio API
  • 19 de março

    • Lançamento do o1-pro na Responses API e na Batch API
    • Criado para responder a problemas difíceis com reasoning e consistência melhores, usando mais computação do que o modelo de reasoning o1
  • 11 de março

    • Lançados vários novos modelos, ferramentas e uma nova API para agentic workflows
    • Lançamento da Responses API, permitindo criar e usar agents e ferramentas
    • Lançamento de um conjunto de ferramentas integradas para a Responses API: web search, file search e computer use
    • Lançamento do Agents SDK, um framework de orchestration para projetar, construir e implantar agents
    • Anunciados os modelos gpt-4o-search-preview, gpt-4o-mini-search-preview e computer-use-preview
    • Informado o plano de migrar todos os recursos da Assistants API para a Responses API, que é mais fácil de usar, e comunicada a previsão de encerrar a Assistants em 2026 após alcançar equivalência total de funcionalidades
  • 3 de março

    • Adicionado suporte ao campo metadata em fine-tuning jobs

Fevereiro de 2025

  • 27 de fevereiro

    • Lançamento do GPT-4.5 como research preview na Chat Completions API, Assistants API e Batch API
    • O GPT-4.5 é apresentado como o maior e mais capaz modelo de chat, com mais força em trabalho criativo e agentic planning com base em alto EQ e compreensão da intenção do usuário
  • 25 de fevereiro

    • Lançamento da API Usage Dashboard Update
    • Incorpora solicitações de filtros de dados adicionais, como seleção de projeto, seletor de datas e intervalos de tempo granulares
    • Permite visualizar melhor o uso em diferentes produtos e service tiers
  • 5 de fevereiro

    • Introduzida a residência de dados na Europa
    • Mais detalhes: your data

Janeiro de 2025

  • 31 de janeiro

    • Lançamento do o3-mini como um pequeno modelo de reasoning
    • Otimizado para tarefas de ciência, matemática e programação
  • 21 de janeiro

    • Expandido o acesso ao modelo o1
    • Os modelos da família o1 foram treinados com reinforcement learning para realizar reasoning complexo

Dezembro de 2024

Novembro de 2024

  • 20 de novembro

    • Lançamento do gpt-4o-2024-11-20 em v1/chat/completions
    • É o modelo mais recente da família gpt-4o
  • 4 de novembro

    • Lançamento de Predicted Outputs
    • Reduz significativamente a latência da resposta do modelo em situações em que grande parte da resposta já é conhecida com antecedência
    • Especialmente usado com frequência ao regenerar conteúdo de documentos e arquivos de código com apenas pequenas alterações

Outubro de 2024

  • 30 de outubro

    • Adicionados cinco novos tipos de voz à Realtime API e à Chat Completions API
    • Os modelos contemplados são gpt-4o-realtime-preview e gpt-4o-audio-preview, e o endpoint v1/chat/completions também é explicitamente mencionado
  • 17 de outubro

  • 1º de outubro OpenAI DevDay in San Francisco

    • Vários recursos foram anunciados no OpenAI DevDay in San Francisco
    • A Realtime API permite criar experiências rápidas de speech-to-speech em aplicativos por meio de uma interface WebSockets
    • Model distillation permite fazer fine-tuning de modelos com melhor custo-benefício usando a saída de grandes modelos frontier
    • Image fine-tuning permite fazer fine-tuning do GPT-4o com imagens e texto para melhorar capacidades visuais
    • Evals oferece a execução de avaliações personalizadas para medir o desempenho do modelo em tarefas específicas
    • Prompt caching oferece desconto e tempo de processamento mais rápido para tokens de entrada vistos recentemente
    • Generate in playground permite gerar facilmente prompts, definições de função e schemas de saída estruturada com o botão Generate

Setembro de 2024

  • 26 de setembro

    • Lançado o novo modelo de moderação omni-moderation-latest
    • Oferece suporte a imagem e texto, e em algumas categorias lida com texto e imagem em conjunto
    • Passa a oferecer suporte a duas novas categorias de dano apenas para texto, com maior precisão de pontuação
  • 12 de setembro

    • o1-preview e o1-mini foram anunciados
    • Os dois modelos são novos modelos de linguagem de grande porte treinados com aprendizado por reforço e voltados para executar tarefas de raciocínio complexas
    • O endpoint é indicado como v1/chat/completions

Agosto de 2024

Julho de 2024

  • 24 de julho

    • Lançada a self-serve SSO configuration
    • Clientes Enterprise com custom billing e unlimited billing podem configurar autenticação de acordo com o IDP desejado
  • 23 de julho

  • 18 de julho

    • GPT-4o mini foi anunciado
    • Foi apresentado como um modelo pequeno de baixo custo para tarefas rápidas e leves
  • 17 de julho

    • Uploads foi lançado para permitir o upload de arquivos grandes divididos em várias partes

Junho de 2024

Maio de 2024

  • 15 de maio

  • 13 de maio

    • GPT-4o foi lançado na API
    • É descrito como o modelo flagship mais rápido e mais barato
  • 9 de maio

  • 7 de maio

  • 6 de maio

    • Adicionado o parâmetro stream_options: {"include_usage": true} à Chat Completions API e à Completions API
    • Com essa configuração, é possível acessar as estatísticas de usage durante o streaming
  • 2 de maio

    • Adicionado um novo endpoint para excluir mensagens de threads na Assistants API

Abril de 2024

Março de 2024

Fevereiro de 2024

Janeiro de 2024

  • 25 de janeiro

    • Foram apresentados os modelos embedding V3 e a preview atualizada do GPT-4 Turbo
    • Adicionado o parâmetro dimensions à Embeddings API

Dezembro de 2023

novembro de 2023

outubro de 2023

2 comentários

 
ragingwind 3 일 전

Agora, a partir da 5.4, o pro não é mais oferecido na Chat Completions API.

 
GN⁺ 4 일 전
Comentários do Hacker News
  • Testei na hora por causa de um problema em produção, e o GPT-5.5 fez uma coisa que o Claude não costuma fazer desse jeito
    Depois do troubleshooting, ele me fez usar uma instrução update, e quando eu disse "beleza, vamos envolver isso numa transaction e colocar rollback também", ele respondeu no estilo antigo:
    BEGIN TRAN;
    -- put the query here
    commit;
    só isso
    Já fazia um tempo que eu não precisava empurrar o modelo de novo para ele realmente fazer o que eu pedi, então isso foi bem chocante
    Entendo querer gastar menos tokens, mas estou pagando por um modelo de ponta, então é irritante quando ele vem com essa preguiça
    Só testei porque apareceu no seletor de modelos do Cursor

    • Desde o gpt-5.3-codex, as últimas 2 ou 3 gerações não pareceram uma grande melhora; dá mais a sensação de que foram mexendo nas coisas e criando tradeoffs diferentes
    • Posso ter entendido errado, mas fiquei curioso sobre o que exatamente foi o problema
      Se o problema foi ele colocar só -- put the query here na resposta e não repetir a query, eu não diria necessariamente que isso é um problema
      Se o objetivo real era obter a query para executar e você disse "vamos fazer isso numa transaction", então é bem razoável ele só te dizer para colocar um begin antes
      Se a query era longa, isso ainda economiza tokens, e é parecido com quando dá permission denied e, em vez de reescrever o comando inteiro, te dizem para só colocar sudo na frente
      Por outro lado, se você esperava que o modelo realmente executasse a query e ele veio com um "tá aqui, executa você", aí sim isso é claramente preguiçoso e dá para entender o espanto
    • A OpenAI parece ser a primeira empresa a finalmente alcançar inteligência suficiente para fazer o usuário trabalhar
      Dá até para pensar "então é assim que surge um emergent behavior"
      Brincadeiras à parte, essa obsessão da OpenAI por otimizar intelligence por token me lembra a fase da Apple antes do M1, quando estava obcecada em deixar o MacBook cada vez mais fino
      Passa a sensação de perseguir uma métrica única até o fim e sacrificar todo o resto
      O GPT-5.3+ claramente está entre os modelos mais inteligentes, mas às vezes é tão preguiçoso que fica doloroso trabalhar com ele
    • Não consigo sentir bem se esse caso é bom ou ruim
    • O GPT-5.5 parece capaz de destruir benchmarks quando o assunto é confiar no usuário
  • Acabei de rodar no meu benchmark de Wordpress+GravityForms, e ele ficou no fundo da tabela até em desempenho bruto, além de ter o pior custo-benefício: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Eu sei que é só um benchmark, mas não consigo entender como pode ser tão ruim assim

    • Parece aquele tipo de teste frouxo que um júnior mexendo numa área que mal conhece montaria na garagem e chamaria de benchmark
      Hoje em dia o significado das palavras se desfaz muito facilmente, então esse tipo de coisa ficou comum
      Até fóruns que antes eram cheios de gente que realmente fazia trabalho técnico agora parecem ser ocupados por uma massa de vibe researchers; quando passa de certo limiar de popularidade, sempre acaba assim
      O HN ainda parece um dos últimos redutos onde sobra alguma investigação séria, mas vendo o comentário original dá para notar que não é totalmente imune
    • No seu benchmark, o gemma4-e4b foi 50% melhor que o gemma4-26b; isso parece sinal de que tem algo errado
    • No seu benchmark, o Opus 4.7 ficou muito atrás do Sonnet 4.6, mas mesmo que isso seja verdade naquele teste, não representa o desempenho geral dos modelos
    • Então você viajou no tempo para trazer esse benchmark
      Eu até gostei desse tipo de benchmarking
      Fiquei curioso sobre como você avaliou o judge benchmark, porque eu também queria montar algo parecido por conta própria
    • Isso parece mais um benchmark de quão bem o modelo faz vibe coding
      O prompt é extremamente raso, mas os critérios de avaliação são muitos
  • Os preços por tamanho de contexto estão assim
    Entrada: $5/M até 272K, $10/M acima disso
    Saída: $30/M até 272K, $45/M acima disso
    Leitura de cache: $0.50/M até 272K, $1/M acima disso
    Passando de 272K, ele fica claramente mais caro que o Opus 4.7, e pelo menos nas minhas tarefas não pareceu ter eficiência de token suficiente para compensar
    Não foi o bastante para neutralizar essa diferença de preço
    O GPT-5.4 tinha como ponto forte o contexto de 400k e uma compaction confiável, e parece que os dois regrediram um pouco
    Dito isso, ainda é cedo para afirmar com certeza se a confiabilidade da compaction realmente piorou
    A saída de frontend também continua tendendo para aquele template azul cheio de cards chamativos
    É um estilo que já parecia suspeito desde a época do Horizon Alpha/Beta, antes do lançamento do GPT-5, mas naquela época a task adherence era tão boa que ainda valia a pena aceitar esse grande defeito
    Só que é estranho que o GPT-5.5, sendo vendido como uma foundation totalmente nova, ainda esteja tão limitado nisso

  • Os resultados de benchmark de raciocínio de programação geral do GPT 5.5 já subiram em https://gertlabs.com/
    Avaliações de decisão em tempo real e testes agentic mais pesados ainda devem ser adicionados ao longo de 24 horas, mas agora já não parece que o ranking do leaderboard vá mudar
    O GPT 5.5 é o modelo público mais inteligente e está claramente mais rápido que o anterior

  • Ontem disseram o seguinte

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Mas hoje já é isso aí
    Um dia ainda entra na categoria de "very soon", mas fiquei curioso sobre o que exatamente queriam dizer com esses safeguards e security requirements

    • Quando dizem que algo está atrasado por causa de safeguards, normalmente só querem dizer que não têm capacidade computacional total disponível agora mesmo
    • O GPT-5.5 já existia na API exclusiva do Codex, e lá diziam explicitamente que podia ser usado para outras finalidades também
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Então fico pensando se isso pode ter acelerado este lançamento
    • Tem alguém comandando a empresa que já mentiu de forma tão descarada sobre questões de segurança que eu sinceramente não entendo por que alguém esperaria algo diferente daqui para frente
      Há precedentes

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      O Altman já foi várias vezes tudo menos totalmente honesto sobre a importância de safety na OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Não sei se é só impressão minha, mas em cada notícia dessas sobre a OpenAI parece que aparecem comentaristas pagos ou bots tentando diminuir o Claude e empurrar a ideia de que o Codex é muito melhor
    É gente demais, e várias das alegações não batem com a experiência de quem usa Claude todo dia

    • Sim, é estranhamente esquisito
      Lembra um pouco como todo mundo parece ter esquecido que a OpenAI traiu a democracia ao concordar em colaborar com armas autônomas sem supervisão e vigilância doméstica em massa
    • Eu também acho isso bem evidente
      Pelo menos começou a ficar visível logo depois do hype do Opus 4.6
    • Claro que fazem isso
      Hoje em dia toda empresa empurrando o próprio produto faz mais ou menos o mesmo
  • Sou usuário Enterprise, mas ainda só vejo o 5.4
    No anúncio de ontem disseram que levaria algumas horas até o rollout para todo mundo, mas a OpenAI precisa melhorar o GTM para gerenciar expectativas

    • Acabei de atualizar e agora o 5.5 apareceu
      Bom ver que liberaram rápido
      Da próxima vez vou reclamar mais cedo
  • É o segundo modelo a tirar 25/25 no meu benchmark
    O primeiro foi o Opus 4.7, e os resultados estão aqui: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Mais barato e mais lento que o Opus

  • Na página da API, o knowledge cutoff aparece como 2025-12-01, mas se você perguntar diretamente ao modelo ele responde junho de 2024
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Não entendo por que esse assunto volta tanto
      Perguntar ao próprio modelo para verificar a data de cutoff sempre foi um dos métodos menos confiáveis
      Ele pode até ter aprendido com comentários como este
      Basta perguntar sobre algum evento que aconteceu logo antes de 2025-12-01
      Se possível, melhor ainda se for de partida esportiva
    • Fico em dúvida se dá mesmo para confiar no que o modelo diz
      Muitas páginas de API de modelos antigos também mostravam cutoff em junho de 2024, então ele pode simplesmente estar repetindo isso
    • O modelo não sabe a própria cutoff date se isso não for informado no prompt de sistema
      A forma correta de verificar o cutoff real é perguntar sobre algo que não existia ou não tinha acontecido antes daquela data
      Pelo que testei algumas vezes, o cutoff de conhecimento geral do 5.5 ainda parece ficar em algum ponto do começo de 2025
    • Então daria para testar perguntando quem venceu a eleição presidencial dos EUA de 2024
  • A combinação GPT 5.5 + Codex está muito boa mesmo
    Seja para tirar dúvidas, montar planos ou implementar código, agora eu já quase delego sem hesitar
    O Opus 4.7 ainda me faz ficar conferindo tudo em dobro
    Ele segue mal as instruções de CLAUDE.md, alucina bastante e, quando não acha a resposta, tende a inventar uma por padrão, então isso pesa muito
    No ano passado o pessoal foi rapidíssimo em dizer que a OpenAI tinha ficado para trás, que era code red, mas olhando agora a situação mudou completamente