3 pontos por GN⁺ 2026-02-13 | 1 comentários | Compartilhar no WhatsApp
  • Uma versão compacta do GPT‑5.3‑Codex, projetada para programação em tempo real, oferecendo velocidade de mais de 1000 tokens/segundo
  • Um modelo somente de texto com janela de contexto de 128k, especializado em correções imediatas de código e trabalho iterativo
  • Introdução de um caminho de resposta baseado em WebSocket, com 80% menos latência de resposta, 30% menos overhead por token e 50% menos tempo até o primeiro token
  • Desenvolvido em colaboração com a Cerebras, operando em um ambiente de inferência de alta velocidade com o Wafer Scale Engine 3
  • O primeiro modelo da estratégia Codex de modo duplo, que combina trabalho autônomo de longa duração e colaboração em tempo real

Visão geral do GPT‑5.3‑Codex‑Spark

  • O GPT‑5.3‑Codex‑Spark é uma versão compacta do GPT‑5.3‑Codex, sendo o primeiro modelo projetado para tarefas de programação em tempo real
    • Alcança velocidade de geração de mais de 1000 tokens/segundo em hardware de latência ultrabaixa
    • Oferece resposta imediata em tarefas reais de programação
  • É o primeiro modelo desenvolvido por meio da colaboração com a Cerebras, marcando o primeiro marco da parceria entre OpenAI e Cerebras
  • Disponibilizado como prévia de pesquisa para usuários do ChatGPT Pro, com o objetivo de conduzir experimentos iniciais e coletar feedback

Principais recursos e desempenho

  • Suporta janela de contexto de 128k e, por enquanto, é oferecido como modelo somente de texto
  • Nos benchmarks SWE‑Bench Pro e Terminal‑Bench 2.0, apresentou desempenho mais alto em menos tempo do que o GPT‑5.3‑Codex
  • Com otimização voltada para velocidade, seu modo de trabalho padrão é leve e orientado a objetivos, e não executa testes automaticamente a menos que isso seja solicitado
  • Permite colaboração em tempo real, de modo que o usuário pode interromper e redirecionar o progresso do modelo e verificar resultados imediatamente

Otimização de latência e infraestrutura

  • Além da velocidade do modelo, foram feitas melhorias para reduzir a latência de todo o pipeline de requisição e resposta
    • 80% de redução no overhead de ida e volta entre cliente e servidor
    • 30% menos overhead por token e 50% menos tempo até o primeiro token
  • Para isso, foram aplicadas conexões persistentes baseadas em WebSocket e otimizações internas na Responses API
  • Essas melhorias devem ser aplicadas não apenas ao Codex‑Spark, mas também a todos os modelos

Integração com hardware da Cerebras

  • O Codex‑Spark roda sobre o Cerebras Wafer Scale Engine 3, fornecendo uma camada de inferência centrada em baixa latência
  • A OpenAI trabalhou com a Cerebras para integrar esse caminho à pilha de serving de produção existente, implementando um ambiente operacional consistente em todo o Codex
  • A infraestrutura de GPU continua sendo a base para treinamento e inferência, enquanto a Cerebras é especializada em workloads de latência ultrabaixa, atuando de forma complementar
  • É possível combinar GPU e Cerebras em uma única workload para alcançar o melhor desempenho

Disponibilidade e acesso

  • O Codex‑Spark começou a ser oferecido como prévia de pesquisa no app Codex, CLI e extensão do VS Code para usuários do ChatGPT Pro
  • Um limite de uso dedicado (rate limit) é aplicado e pode ser ajustado de acordo com a demanda
  • Alguns parceiros de design receberam acesso à API, e feedback está sendo coletado sobre formas de integração ao produto
  • Nas próximas semanas, o escopo de acesso será ampliado, e a integração será ajustada com base em workloads reais

Segurança e direção futura

  • O Codex‑Spark inclui o mesmo treinamento de segurança dos modelos mainline existentes e passou por avaliações relacionadas a cibersegurança
  • Os resultados das avaliações confirmaram que não atinge o limiar de capacidades de alto risco nas áreas de cibersegurança e biologia
  • O Codex está evoluindo para combinar dois modos: raciocínio de execução longa e trabalho iterativo colaborativo em tempo real
    • No futuro, estão previstas expansões como entrada multimodal, modelos maiores e contexto mais longo
  • A inferência ultrarrápida acelera o processo de transformar ideias em software executável imediatamente, proporcionando uma experiência de interação natural

1 comentários

 
GN⁺ 2026-02-13
Comentários no Hacker News
  • Seria ótimo se desse para enviar imagens no HN. O chip WSE-3 é realmente gigantesco
    Esse chip tem 46.255mm², inclui 4 trilhões de transistores e oferece 125 petaflops de computação com 900 mil núcleos otimizados para IA. Isso representa 19 vezes mais transistores e 28 vezes mais poder de processamento do que o NVIDIA B200
    Mais detalhes na página oficial da Cerebras, imagem 1 e imagem 2

    • Parece que vai gerar um calor absurdo, então o sistema de refrigeração deve ser crucial. Espero que seja alimentado por energia renovável
  • Eu uso agentes de código para gerar automaticamente decks de slides para a web. Defino o “slide mestre” como componente e aplico as regras de branding e os assets da empresa. Aí basta colocar o conteúdo e os prompts que sai uma apresentação bem limpa
    O que eu realmente quero é um modo de improviso (improv mode). Durante a apresentação, com base nas perguntas da plateia ou em ideias que surgem na hora, receber 3 sugestões de próximos slides, escolher uma e depois voltar ao fluxo principal.
    Por exemplo, se eu mencionar uma notícia ou artigo científico, gerar automaticamente um slide com screenshot e QR code, e depois retornar ao andamento da apresentação. Se voz em tempo real + geração de código forem combinadas, acho que as ferramentas de apresentação vão ficar muito mais úteis

    • Acho esse tipo de apresentação probabilística muito legal. O resultado pode ser surpreendente ou engraçado
    • Estamos construindo quase exatamente isso na Octigen. Posso dar acesso à demo ou à versão alpha
    • Já fiz algo parecido em um hackathon. Era um sistema que ajustava a velocidade do teleprompter com base no tom e na velocidade da fala do apresentador. Expandir isso para um modo de improviso seria realmente interessante
    • Como professor que gasta tempo demais preparando aulas, eu gostaria de testar esse tipo de sistema em sala
    • Fiquei curioso para saber se você pode mostrar um exemplo real
  • Testei o gpt-5.3-codex-spark no Codex CLI, e ele é extremamente rápido, mas passa a impressão de ser um modelo pequeno.
    Medi o desempenho com o meu teste “bluey bench” (benchmark de sistema de arquivos), e modelos menores tendem a ter menos eficiência de contexto e fazem compaction com frequência.
    Ainda assim, em velocidade ele é muito mais rápido do que a geração anterior

    • Eu gostaria que o bluey bench virasse o benchmark padrão para todos os modelos daqui para frente
    • Fiquei curioso se alguém comparou com o Opus 4.6 (com o modo de pensar desativado). Aquele modelo também é bem rápido
    • O nome é parecido com o Codex anterior, mas o desempenho é bem inferior, o que é estranho
  • Acho que a Cerebras continua sendo uma empresa subestimada. Um chip do tamanho de um prato realmente funciona e, em uso real, é mais rápido do que qualquer outra coisa. É uma tecnologia impressionante

    • Acho que a era da Nvidia está chegando ao fim. O Google deve quadruplicar a eficiência de inferência com o TPUv9, e a Cerebras é muito mais rápida em workloads de agentes. Em eficiência energética e custo, o Google também está na frente.
      Como a infraestrutura elétrica é o gargalo, os EUA não conseguem construir grandes usinas em pouco tempo. No fim, parece que o Google vai liderar o mercado depois do TPUv8
    • Na verdade, o motivo de esse chip ter “tamanho de prato” é que usa o wafer inteiro como um único chip. Integração em escala de wafer é uma tecnologia pesquisada há décadas
    • O ponto negativo é que o preço é alto demais
    • Mesmo assim, os investidores ainda continuam colocando dinheiro na Nvidia
    • Mas esse chip custa mais de US$ 1 milhão por unidade, e só cabe 1 por rack. Falta densidade e capacidade de memória. No fim, como a Nvidia já gastou US$ 20 bilhões para adquirir a Groq, a chance de a Cerebras ser adquirida também parece baixa
  • Meu benchmark Pelican mostra visualmente a diferença de qualidade entre o GPT-5.3-Codex-Spark e o GPT-5.3-Codex completo
    Mais detalhes no post do blog

    • Eu espero por benchmarks assim toda vez que sai um modelo novo. É útil porque mostra vários fatores de uma vez. O blog também é excelente
  • A ideia de fila de prioridade / offload de workload em camadas com agentes de código é interessante.
    Se 60% do trabalho for edição simples ou refatoração, então baixa latência e alto processamento de tokens são importantes.
    Recentemente saiu um plugin Batch API para Claude, e Nvidia e Google também estão preparando silício customizado para inferência (artigo)

    • Só que a Batch API tem latência muito maior. É boa para trabalho em volume, mas um único round-trip pode levar até 24 horas. Além disso, os modelos Codex e Pro não são compatíveis com a Batch API
    • Eu criei um MCP para que o Claude possa terceirizar desenvolvimento para o GLM 4.7 on Cerebras. Deixei o Claude especificar prompt de sistema, arquivos de saída e arquivos de contexto, e isso acelerou bastante o desenvolvimento
  • Já faz 20 minutos que isso virou padrão da indústria, e ainda assim me surpreende que ainda exista gente usando GPT-5.3-Codex

    • Eu também li o título e pensei: “se houve anúncio de GPT, então o Google ou a Anthropic também devem ter lançado algo”, e de fato tinha Gemini
  • É possível que a OpenAI esteja testando isso no Openrouter com o nome Aurora Alpha.
    Rodei um projeto pequeno com o Aider e ele processou 10 mil tokens de entrada e 1 mil de saída a 500 tokens por segundo

  • Vi a frase “os modelos mais recentes conseguem trabalhar de forma autônoma por horas ou dias”, mas ainda não vi resultados realmente úteis disso na prática

    • Queria perguntar quanto você já testou. Opus 4.6 e GPT-5.3 claramente melhoraram em tarefas longas. Por exemplo, este projeto e a página de demo foram concluídos com um único prompt (link do prompt)
    • Eu frequentemente deixo o Codex rodando durante a noite para procurar bugs. Para automação de debugging, ele é realmente ideal
    • Impressiona a capacidade do modelo de não parar e continuar queimando tokens
    • Acho engraçada a frase “nosso modelo é tão lento que as tarefas levam horas”. Não parece exatamente algo de que se orgulhar
    • Alguns dias atrás, o Codex fez sozinho o upgrade para Vite 8 do site da minha empresa por mais de 3 horas. Agora isso já está em produção
  • Finalmente estamos vendo uma das três grandes usando a Cerebras. Esperei por esse dia por muito tempo

    • No começo eu evitava por ser uma tecnologia ainda não comprovada, mas agora parece ter dado um grande salto em velocidade