Lançamento do GPT‑5.3‑Codex‑Spark

(openai.com)

3 pontos por GN⁺ 2026-02-13 | 1 comentários | Compartilhar no WhatsApp

Uma versão compacta do GPT‑5.3‑Codex, projetada para programação em tempo real, oferecendo velocidade de mais de 1000 tokens/segundo
Um modelo somente de texto com janela de contexto de 128k, especializado em correções imediatas de código e trabalho iterativo
Introdução de um caminho de resposta baseado em WebSocket, com 80% menos latência de resposta, 30% menos overhead por token e 50% menos tempo até o primeiro token
Desenvolvido em colaboração com a Cerebras, operando em um ambiente de inferência de alta velocidade com o Wafer Scale Engine 3
O primeiro modelo da estratégia Codex de modo duplo, que combina trabalho autônomo de longa duração e colaboração em tempo real

Visão geral do GPT‑5.3‑Codex‑Spark

O GPT‑5.3‑Codex‑Spark é uma versão compacta do GPT‑5.3‑Codex, sendo o primeiro modelo projetado para tarefas de programação em tempo real
- Alcança velocidade de geração de mais de 1000 tokens/segundo em hardware de latência ultrabaixa
- Oferece resposta imediata em tarefas reais de programação
É o primeiro modelo desenvolvido por meio da colaboração com a Cerebras, marcando o primeiro marco da parceria entre OpenAI e Cerebras
Disponibilizado como prévia de pesquisa para usuários do ChatGPT Pro, com o objetivo de conduzir experimentos iniciais e coletar feedback

Principais recursos e desempenho

Suporta janela de contexto de 128k e, por enquanto, é oferecido como modelo somente de texto
Nos benchmarks SWE‑Bench Pro e Terminal‑Bench 2.0, apresentou desempenho mais alto em menos tempo do que o GPT‑5.3‑Codex
Com otimização voltada para velocidade, seu modo de trabalho padrão é leve e orientado a objetivos, e não executa testes automaticamente a menos que isso seja solicitado
Permite colaboração em tempo real, de modo que o usuário pode interromper e redirecionar o progresso do modelo e verificar resultados imediatamente

Otimização de latência e infraestrutura

Além da velocidade do modelo, foram feitas melhorias para reduzir a latência de todo o pipeline de requisição e resposta
- 80% de redução no overhead de ida e volta entre cliente e servidor
- 30% menos overhead por token e 50% menos tempo até o primeiro token
Para isso, foram aplicadas conexões persistentes baseadas em WebSocket e otimizações internas na Responses API
Essas melhorias devem ser aplicadas não apenas ao Codex‑Spark, mas também a todos os modelos

Integração com hardware da Cerebras

O Codex‑Spark roda sobre o Cerebras Wafer Scale Engine 3, fornecendo uma camada de inferência centrada em baixa latência
A OpenAI trabalhou com a Cerebras para integrar esse caminho à pilha de serving de produção existente, implementando um ambiente operacional consistente em todo o Codex
A infraestrutura de GPU continua sendo a base para treinamento e inferência, enquanto a Cerebras é especializada em workloads de latência ultrabaixa, atuando de forma complementar
É possível combinar GPU e Cerebras em uma única workload para alcançar o melhor desempenho

Disponibilidade e acesso

O Codex‑Spark começou a ser oferecido como prévia de pesquisa no app Codex, CLI e extensão do VS Code para usuários do ChatGPT Pro
Um limite de uso dedicado (rate limit) é aplicado e pode ser ajustado de acordo com a demanda
Alguns parceiros de design receberam acesso à API, e feedback está sendo coletado sobre formas de integração ao produto
Nas próximas semanas, o escopo de acesso será ampliado, e a integração será ajustada com base em workloads reais

Segurança e direção futura

O Codex‑Spark inclui o mesmo treinamento de segurança dos modelos mainline existentes e passou por avaliações relacionadas a cibersegurança
Os resultados das avaliações confirmaram que não atinge o limiar de capacidades de alto risco nas áreas de cibersegurança e biologia
O Codex está evoluindo para combinar dois modos: raciocínio de execução longa e trabalho iterativo colaborativo em tempo real
- No futuro, estão previstas expansões como entrada multimodal, modelos maiores e contexto mais longo
A inferência ultrarrápida acelera o processo de transformar ideias em software executável imediatamente, proporcionando uma experiência de interação natural

1 comentários

GN⁺ 2026-02-13

Comentários no Hacker News

Seria ótimo se desse para enviar imagens no HN. O chip WSE-3 é realmente gigantesco
Esse chip tem 46.255mm², inclui 4 trilhões de transistores e oferece 125 petaflops de computação com 900 mil núcleos otimizados para IA. Isso representa 19 vezes mais transistores e 28 vezes mais poder de processamento do que o NVIDIA B200
Mais detalhes na página oficial da Cerebras, imagem 1 e imagem 2
- Parece que vai gerar um calor absurdo, então o sistema de refrigeração deve ser crucial. Espero que seja alimentado por energia renovável
Eu uso agentes de código para gerar automaticamente decks de slides para a web. Defino o “slide mestre” como componente e aplico as regras de branding e os assets da empresa. Aí basta colocar o conteúdo e os prompts que sai uma apresentação bem limpa
O que eu realmente quero é um modo de improviso (improv mode). Durante a apresentação, com base nas perguntas da plateia ou em ideias que surgem na hora, receber 3 sugestões de próximos slides, escolher uma e depois voltar ao fluxo principal.
Por exemplo, se eu mencionar uma notícia ou artigo científico, gerar automaticamente um slide com screenshot e QR code, e depois retornar ao andamento da apresentação. Se voz em tempo real + geração de código forem combinadas, acho que as ferramentas de apresentação vão ficar muito mais úteis
- Acho esse tipo de apresentação probabilística muito legal. O resultado pode ser surpreendente ou engraçado
- Estamos construindo quase exatamente isso na Octigen. Posso dar acesso à demo ou à versão alpha
- Já fiz algo parecido em um hackathon. Era um sistema que ajustava a velocidade do teleprompter com base no tom e na velocidade da fala do apresentador. Expandir isso para um modo de improviso seria realmente interessante
- Como professor que gasta tempo demais preparando aulas, eu gostaria de testar esse tipo de sistema em sala
- Fiquei curioso para saber se você pode mostrar um exemplo real
Testei o gpt-5.3-codex-spark no Codex CLI, e ele é extremamente rápido, mas passa a impressão de ser um modelo pequeno.
Medi o desempenho com o meu teste “bluey bench” (benchmark de sistema de arquivos), e modelos menores tendem a ter menos eficiência de contexto e fazem compaction com frequência.
Ainda assim, em velocidade ele é muito mais rápido do que a geração anterior
- Eu gostaria que o bluey bench virasse o benchmark padrão para todos os modelos daqui para frente
- Fiquei curioso se alguém comparou com o Opus 4.6 (com o modo de pensar desativado). Aquele modelo também é bem rápido
- O nome é parecido com o Codex anterior, mas o desempenho é bem inferior, o que é estranho
Acho que a Cerebras continua sendo uma empresa subestimada. Um chip do tamanho de um prato realmente funciona e, em uso real, é mais rápido do que qualquer outra coisa. É uma tecnologia impressionante
- Acho que a era da Nvidia está chegando ao fim. O Google deve quadruplicar a eficiência de inferência com o TPUv9, e a Cerebras é muito mais rápida em workloads de agentes. Em eficiência energética e custo, o Google também está na frente.
  Como a infraestrutura elétrica é o gargalo, os EUA não conseguem construir grandes usinas em pouco tempo. No fim, parece que o Google vai liderar o mercado depois do TPUv8
- Na verdade, o motivo de esse chip ter “tamanho de prato” é que usa o wafer inteiro como um único chip. Integração em escala de wafer é uma tecnologia pesquisada há décadas
- O ponto negativo é que o preço é alto demais
- Mesmo assim, os investidores ainda continuam colocando dinheiro na Nvidia
- Mas esse chip custa mais de US$ 1 milhão por unidade, e só cabe 1 por rack. Falta densidade e capacidade de memória. No fim, como a Nvidia já gastou US$ 20 bilhões para adquirir a Groq, a chance de a Cerebras ser adquirida também parece baixa
Meu benchmark Pelican mostra visualmente a diferença de qualidade entre o GPT-5.3-Codex-Spark e o GPT-5.3-Codex completo
Mais detalhes no post do blog
- Eu espero por benchmarks assim toda vez que sai um modelo novo. É útil porque mostra vários fatores de uma vez. O blog também é excelente
A ideia de fila de prioridade / offload de workload em camadas com agentes de código é interessante.
Se 60% do trabalho for edição simples ou refatoração, então baixa latência e alto processamento de tokens são importantes.
Recentemente saiu um plugin Batch API para Claude, e Nvidia e Google também estão preparando silício customizado para inferência (artigo)
- Só que a Batch API tem latência muito maior. É boa para trabalho em volume, mas um único round-trip pode levar até 24 horas. Além disso, os modelos Codex e Pro não são compatíveis com a Batch API
- Eu criei um MCP para que o Claude possa terceirizar desenvolvimento para o GLM 4.7 on Cerebras. Deixei o Claude especificar prompt de sistema, arquivos de saída e arquivos de contexto, e isso acelerou bastante o desenvolvimento
Já faz 20 minutos que isso virou padrão da indústria, e ainda assim me surpreende que ainda exista gente usando GPT-5.3-Codex
- Eu também li o título e pensei: “se houve anúncio de GPT, então o Google ou a Anthropic também devem ter lançado algo”, e de fato tinha Gemini
É possível que a OpenAI esteja testando isso no Openrouter com o nome Aurora Alpha.
Rodei um projeto pequeno com o Aider e ele processou 10 mil tokens de entrada e 1 mil de saída a 500 tokens por segundo
Vi a frase “os modelos mais recentes conseguem trabalhar de forma autônoma por horas ou dias”, mas ainda não vi resultados realmente úteis disso na prática
- Queria perguntar quanto você já testou. Opus 4.6 e GPT-5.3 claramente melhoraram em tarefas longas. Por exemplo, este projeto e a página de demo foram concluídos com um único prompt (link do prompt)
- Eu frequentemente deixo o Codex rodando durante a noite para procurar bugs. Para automação de debugging, ele é realmente ideal
- Impressiona a capacidade do modelo de não parar e continuar queimando tokens
- Acho engraçada a frase “nosso modelo é tão lento que as tarefas levam horas”. Não parece exatamente algo de que se orgulhar
- Alguns dias atrás, o Codex fez sozinho o upgrade para Vite 8 do site da minha empresa por mais de 3 horas. Agora isso já está em produção
Finalmente estamos vendo uma das três grandes usando a Cerebras. Esperei por esse dia por muito tempo
- No começo eu evitava por ser uma tecnologia ainda não comprovada, mas agora parece ter dado um grande salto em velocidade

Lançamento do GPT‑5.3‑Codex‑Spark

Visão geral do GPT‑5.3‑Codex‑Spark

Principais recursos e desempenho

Otimização de latência e infraestrutura

Integração com hardware da Cerebras

Disponibilidade e acesso

Segurança e direção futura

Leituras relacionadas

1 comentários

Comentários no Hacker News