6 pontos por GN⁺ 2026-02-16 | 1 comentários | Compartilhar no WhatsApp
  • Anthropic e OpenAI divulgaram, cada uma, um “fast mode” para seus principais modelos de programação, aumentando bastante a velocidade de inferência
  • A Anthropic mantém o mesmo modelo Opus 4.6, mas reduz o tamanho do batch para oferecer até 2,5x mais velocidade no processamento de tokens
  • A OpenAI introduziu o novo modelo GPT-5.3-Codex-Spark, baseado em chips Cerebras, que gera mais de 1000 tokens por segundo, porém com menor precisão
  • As duas abordagens usam princípios técnicos totalmente diferentes: inferência com batch reduzido e inferência in-memory baseada em chips gigantes
  • A inferência rápida é tecnicamente impressionante, mas há quem destaque que precisão importa mais do que velocidade, e que a viabilidade econômica e prática ainda é incerta

Estrutura do Fast Mode da Anthropic

  • A abordagem da Anthropic reduz o tamanho do batch para minimizar a latência
    • O principal gargalo da GPU é a transferência de memória, e agrupar requisições de vários usuários em batches aumenta o throughput, mas também aumenta o tempo de espera
    • O Fast mode funciona como um “ônibus que sai imediatamente”, processando o pedido assim que o usuário o envia
  • Essa abordagem oferece 2,5x mais velocidade com custo 6x maior
    • Como não há espera para formar batch, a latência até o primeiro token diminui
    • Em compensação, o throughput total da GPU cai
  • Alguns usuários observaram que, após o primeiro token, a espera não é tão grande, e que o efeito de batches menores se aproxima mais de um ganho de velocidade de execução por redução da carga computacional

Estrutura do Fast Mode da OpenAI

  • A OpenAI adotou uma abordagem completamente diferente com chips Cerebras
    • Em vez do modelo existente, usa um modelo distilled mais leve chamado GPT-5.3-Codex-Spark
    • O Spark é menos sofisticado que o original, mas alcança mais de 15x de velocidade de inferência
  • O chip Cerebras é um chip gigantesco em escala de wafer com 70 polegadas quadradas, com 44 GB de SRAM embutidos
    • O modelo inteiro é carregado na SRAM, permitindo inferência in-memory sem acesso à memória externa
    • Isso representa uma diferença enorme em relação aos poucos dezenas de MB de SRAM típicos de GPUs
  • Supõe-se que o modelo Spark fique residente com sharding em vários chips Cerebras, e essa configuração seria um fator central para o ganho de velocidade

Comparação técnica e avaliação

  • A Anthropic mantém o modelo existente e apenas ajusta a política de batch
  • A OpenAI combina uma nova arquitetura de hardware com um novo desenho de modelo para alcançar um ganho de desempenho mais fundamental
  • Executar um modelo sobre chips Cerebras é um desafio técnico complexo, e o treinamento do modelo Spark também não é uma tarefa simples
  • As duas empresas atingiram o mesmo objetivo de aumentar a velocidade por caminhos técnicos distintos, e a abordagem da OpenAI parece mais impressionante do ponto de vista técnico

Significado e limites da inferência rápida

  • Com os anúncios das duas empresas, pode parecer que a “inferência rápida de IA” será o próximo eixo competitivo, mas na prática há um forte componente de resposta estratégica
    • A Anthropic aparentemente reagiu rapidamente ao anúncio da OpenAI
    • A OpenAI ainda está na fase de divulgar resultados experimentais da parceria com a Cerebras
  • Modelos mais rápidos, mas menos sofisticados, têm limitações de uso no mundo real
    • Como os usuários acabam gastando mais tempo lidando com erros do modelo, precisão importa mais do que velocidade
  • Ainda assim, esses modelos de “baixa precisão e alta velocidade” podem ser úteis como componentes subordinados em sistemas de IA
    • Ex.: uso do Haiku no Claude Code, possibilidade de incorporar o Spark na OpenAI

Discussão da comunidade e observações adicionais

  • No Hacker News, surgiram várias opiniões sobre as características de desempenho do batching e os gargalos de comunicação entre chips
    • Alguns defendem que com continuous batching praticamente não há tempo de espera
    • Outros rebatem dizendo que as conexões entre chips afetam a velocidade de inferência
  • O trade-off entre tamanho de batch e latência continua existindo
  • A Anthropic deixou claro que a latência até o primeiro token ainda pode ser alta, enquanto a OpenAI tenta minimizá-la com conexões persistentes via WebSocket
  • No geral, a estrutura da inferência rápida de LLM é complexa e difícil de explicar com um modelo simples

1 comentários

 
GN⁺ 2026-02-16
Comentários do Hacker News
  • As pessoas estão entendendo errado o fast mode da Anthropic, provavelmente por causa do nome
    Na prática, ele é mais caro e funciona de forma mais inteligente em problemas difíceis.
    A abordagem de parallel distill and refine deste artigo se encaixa exatamente aqui.
    A estrutura gera vários caminhos em paralelo e depois faz rapidamente a destilação (distill) e o refinamento (refine) para produzir o resultado.
    Esse método consome mais tokens, mas permite saídas mais rápidas e mais inteligentes
    speculative decoding não tem relação com melhora de qualidade, e batching simples aumenta a velocidade, mas reduz o custo
    Gemini Deepthink e GPT-5.2-pro também fazem inferência paralela semelhante, mas calculam os caminhos completos até o fim antes de refinar o resultado

    • Segundo a documentação oficial da Anthropic, o fast mode é o próprio modelo Opus 4.6, mudando apenas a configuração da API para priorizar velocidade. A qualidade é a mesma
  • A ideia de fazer inferência carregando o modelo inteiro na memória com os 44GB de SRAM dos chips da Cerebras é interessante
    O tamanho do GPT-5.3-Codex-Spark seria limitado mais pelo número de chips interconectáveis do que pela memória de um único chip
    Como a Cerebras suporta modelos maiores que 40B com mais velocidade, é bem possível que o Spark esteja mais próximo do GLM 4.7 (355B parâmetros, 32B ativos)
    Veja a página de preços da Cerebras

    • Ao fragmentar o modelo em shards, a velocidade cai muito. A vantagem dos chips em escala de wafer é a largura de banda de memória on-chip; se isso for perdido, deixa de fazer sentido
      As soluções da Groq, TPU e Nvidia são melhores em eficiência energética
    • Como a Cerebras consegue rodar modelos maiores que 40B mais rápido, é difícil confiar na afirmação do texto original
    • Conectar chips em série só aumenta a latência, e não reduz o throughput
    • Mesmo com SRAM pequena, chips como os da Groq conseguem rodar modelos grandes. Portanto, interligar chips não implica necessariamente perda de velocidade
  • É bem provável que a Anthropic esteja roteando requisições fast para o hardware mais novo
    Ela opera equipamentos de várias gerações, como TPU e GPU, então o fast mode provavelmente é processado apenas nas máquinas mais rápidas

    • A largura de banda de memória do GB200 é 2,4x maior que a do H100. Por isso, é bem possível que o fast mode seja apenas uma diferença de hardware
      Técnicas como speculative decoding já devem estar em uso, então provavelmente não é por causa de melhorias em batching
  • Como diz a afirmação no fim do artigo, pode ser verdade hoje que precisão importa mais do que velocidade
    Mas, se com a parceria OpenAI–Cerebras modelos grandes como o Codex-5.3 passarem a rodar diretamente no chip,
    será possível ter modelos rápidos e precisos a ponto de substituir tarefas de atendimento ao cliente

    • Ainda assim, para rodar um modelo de 5~7TB com 40GB de SRAM seriam necessários vários megawatts de energia. A Cerebras consome muita energia
      Quando surgirem silícios dedicados a LLM, deve chegar uma era muito mais eficiente
    • Se o problema de queda de qualidade ao treinar com dados gerados por IA ainda não tiver sido resolvido, atualizar modelos vai ficar cada vez mais difícil
  • O problema de ter que esperar pelo batching já foi resolvido com continuous batching
    Foi essa tecnologia que permitiu oferecer o Claude Code a baixo custo
    Texto relacionado

  • A analogia do ônibus é meio estranha. Na prática, o fast mode funciona ao ocupar uma fatia maior do batch para aumentar o throughput
    Pelo volume de tráfego da Anthropic, é de se esperar que os batches encham quase imediatamente

  • Fico curioso sobre por que o ChatGPT responde assim que a mensagem é enviada
    O fato de não precisar esperar o batch pode ser porque o tráfego é enorme, ou porque a entrada é transmitida antecipadamente por WebSocket para a GPU

  • Muita gente confunde a diferença entre SRAM e HBM
    A HBM é baseada em DRAM, tem grande capacidade mas é mais lenta, enquanto a SRAM é muito mais rápida, porém cara
    A Cerebras integra 44GB de SRAM gigantesca em um único chip para obter velocidade extrema
    Mas o design não é simples, então o desempenho real depende de vários fatores

    • Os 80GB de HBM da Nvidia são memória externa, enquanto os 44GB da Cerebras são SRAM interna
      É possível que a OpenAI tenha projetado o modelo para caber em 44GB, ou que tenha conectado vários chips em cadeia
  • Em IA de voz em tempo real, a latência é o ponto-chave
    As pessoas acham estranho esperar mais de 800ms, então o tempo disponível para inferência de LLM fica em torno de 400~500ms
    Com a velocidade do Sonnet (80 tok/s), é difícil até completar uma frase, mas com a velocidade da Cerebras ou da Groq (mais de 1000 tok/s), dá para gerar mais de 400 tokens
    Por isso, ajustar modelos menores de forma especializada por domínio pode ser mais eficiente do que usar modelos grandes
    A abordagem de council, combinando vários agentes pequenos, é uma forma de conseguir velocidade e qualidade ao mesmo tempo
    Além disso, com speculative decoding, dá para prever respostas frequentes e preparar o TTS com antecedência, permitindo respostas abaixo de 200ms em 60% das conversas

    • Como a OpenAI é o único grande laboratório de pesquisa focado em modelos de voz, essa direção provavelmente vai avançar ainda mais