- Uma versão compacta do GPT‑5.3‑Codex, projetada para programação em tempo real, oferecendo velocidade de mais de 1000 tokens/segundo
- Um modelo somente de texto com janela de contexto de 128k, especializado em correções imediatas de código e trabalho iterativo
- Introdução de um caminho de resposta baseado em WebSocket, com 80% menos latência de resposta, 30% menos overhead por token e 50% menos tempo até o primeiro token
- Desenvolvido em colaboração com a Cerebras, operando em um ambiente de inferência de alta velocidade com o Wafer Scale Engine 3
- O primeiro modelo da estratégia Codex de modo duplo, que combina trabalho autônomo de longa duração e colaboração em tempo real
Visão geral do GPT‑5.3‑Codex‑Spark
- O GPT‑5.3‑Codex‑Spark é uma versão compacta do GPT‑5.3‑Codex, sendo o primeiro modelo projetado para tarefas de programação em tempo real
- Alcança velocidade de geração de mais de 1000 tokens/segundo em hardware de latência ultrabaixa
- Oferece resposta imediata em tarefas reais de programação
- É o primeiro modelo desenvolvido por meio da colaboração com a Cerebras, marcando o primeiro marco da parceria entre OpenAI e Cerebras
- Disponibilizado como prévia de pesquisa para usuários do ChatGPT Pro, com o objetivo de conduzir experimentos iniciais e coletar feedback
Principais recursos e desempenho
- Suporta janela de contexto de 128k e, por enquanto, é oferecido como modelo somente de texto
- Nos benchmarks SWE‑Bench Pro e Terminal‑Bench 2.0, apresentou desempenho mais alto em menos tempo do que o GPT‑5.3‑Codex
- Com otimização voltada para velocidade, seu modo de trabalho padrão é leve e orientado a objetivos, e não executa testes automaticamente a menos que isso seja solicitado
- Permite colaboração em tempo real, de modo que o usuário pode interromper e redirecionar o progresso do modelo e verificar resultados imediatamente
Otimização de latência e infraestrutura
- Além da velocidade do modelo, foram feitas melhorias para reduzir a latência de todo o pipeline de requisição e resposta
- 80% de redução no overhead de ida e volta entre cliente e servidor
- 30% menos overhead por token e 50% menos tempo até o primeiro token
- Para isso, foram aplicadas conexões persistentes baseadas em WebSocket e otimizações internas na Responses API
- Essas melhorias devem ser aplicadas não apenas ao Codex‑Spark, mas também a todos os modelos
Integração com hardware da Cerebras
- O Codex‑Spark roda sobre o Cerebras Wafer Scale Engine 3, fornecendo uma camada de inferência centrada em baixa latência
- A OpenAI trabalhou com a Cerebras para integrar esse caminho à pilha de serving de produção existente, implementando um ambiente operacional consistente em todo o Codex
- A infraestrutura de GPU continua sendo a base para treinamento e inferência, enquanto a Cerebras é especializada em workloads de latência ultrabaixa, atuando de forma complementar
- É possível combinar GPU e Cerebras em uma única workload para alcançar o melhor desempenho
Disponibilidade e acesso
- O Codex‑Spark começou a ser oferecido como prévia de pesquisa no app Codex, CLI e extensão do VS Code para usuários do ChatGPT Pro
- Um limite de uso dedicado (rate limit) é aplicado e pode ser ajustado de acordo com a demanda
- Alguns parceiros de design receberam acesso à API, e feedback está sendo coletado sobre formas de integração ao produto
- Nas próximas semanas, o escopo de acesso será ampliado, e a integração será ajustada com base em workloads reais
Segurança e direção futura
- O Codex‑Spark inclui o mesmo treinamento de segurança dos modelos mainline existentes e passou por avaliações relacionadas a cibersegurança
- Os resultados das avaliações confirmaram que não atinge o limiar de capacidades de alto risco nas áreas de cibersegurança e biologia
- O Codex está evoluindo para combinar dois modos: raciocínio de execução longa e trabalho iterativo colaborativo em tempo real
- No futuro, estão previstas expansões como entrada multimodal, modelos maiores e contexto mais longo
- A inferência ultrarrápida acelera o processo de transformar ideias em software executável imediatamente, proporcionando uma experiência de interação natural
1 comentários
Comentários no Hacker News
Seria ótimo se desse para enviar imagens no HN. O chip WSE-3 é realmente gigantesco
Esse chip tem 46.255mm², inclui 4 trilhões de transistores e oferece 125 petaflops de computação com 900 mil núcleos otimizados para IA. Isso representa 19 vezes mais transistores e 28 vezes mais poder de processamento do que o NVIDIA B200
Mais detalhes na página oficial da Cerebras, imagem 1 e imagem 2
Eu uso agentes de código para gerar automaticamente decks de slides para a web. Defino o “slide mestre” como componente e aplico as regras de branding e os assets da empresa. Aí basta colocar o conteúdo e os prompts que sai uma apresentação bem limpa
O que eu realmente quero é um modo de improviso (improv mode). Durante a apresentação, com base nas perguntas da plateia ou em ideias que surgem na hora, receber 3 sugestões de próximos slides, escolher uma e depois voltar ao fluxo principal.
Por exemplo, se eu mencionar uma notícia ou artigo científico, gerar automaticamente um slide com screenshot e QR code, e depois retornar ao andamento da apresentação. Se voz em tempo real + geração de código forem combinadas, acho que as ferramentas de apresentação vão ficar muito mais úteis
Testei o gpt-5.3-codex-spark no Codex CLI, e ele é extremamente rápido, mas passa a impressão de ser um modelo pequeno.
Medi o desempenho com o meu teste “bluey bench” (benchmark de sistema de arquivos), e modelos menores tendem a ter menos eficiência de contexto e fazem compaction com frequência.
Ainda assim, em velocidade ele é muito mais rápido do que a geração anterior
Acho que a Cerebras continua sendo uma empresa subestimada. Um chip do tamanho de um prato realmente funciona e, em uso real, é mais rápido do que qualquer outra coisa. É uma tecnologia impressionante
Como a infraestrutura elétrica é o gargalo, os EUA não conseguem construir grandes usinas em pouco tempo. No fim, parece que o Google vai liderar o mercado depois do TPUv8
Meu benchmark Pelican mostra visualmente a diferença de qualidade entre o GPT-5.3-Codex-Spark e o GPT-5.3-Codex completo
Mais detalhes no post do blog
A ideia de fila de prioridade / offload de workload em camadas com agentes de código é interessante.
Se 60% do trabalho for edição simples ou refatoração, então baixa latência e alto processamento de tokens são importantes.
Recentemente saiu um plugin Batch API para Claude, e Nvidia e Google também estão preparando silício customizado para inferência (artigo)
Já faz 20 minutos que isso virou padrão da indústria, e ainda assim me surpreende que ainda exista gente usando GPT-5.3-Codex
É possível que a OpenAI esteja testando isso no Openrouter com o nome Aurora Alpha.
Rodei um projeto pequeno com o Aider e ele processou 10 mil tokens de entrada e 1 mil de saída a 500 tokens por segundo
Vi a frase “os modelos mais recentes conseguem trabalhar de forma autônoma por horas ou dias”, mas ainda não vi resultados realmente úteis disso na prática
Finalmente estamos vendo uma das três grandes usando a Cerebras. Esperei por esse dia por muito tempo