Duas abordagens diferentes para inferência rápida de LLM

(seangoedecke.com)

6 pontos por GN⁺ 2026-02-16 | 1 comentários | Compartilhar no WhatsApp

Anthropic e OpenAI divulgaram, cada uma, um “fast mode” para seus principais modelos de programação, aumentando bastante a velocidade de inferência
A Anthropic mantém o mesmo modelo Opus 4.6, mas reduz o tamanho do batch para oferecer até 2,5x mais velocidade no processamento de tokens
A OpenAI introduziu o novo modelo GPT-5.3-Codex-Spark, baseado em chips Cerebras, que gera mais de 1000 tokens por segundo, porém com menor precisão
As duas abordagens usam princípios técnicos totalmente diferentes: inferência com batch reduzido e inferência in-memory baseada em chips gigantes
A inferência rápida é tecnicamente impressionante, mas há quem destaque que precisão importa mais do que velocidade, e que a viabilidade econômica e prática ainda é incerta

Estrutura do Fast Mode da Anthropic

A abordagem da Anthropic reduz o tamanho do batch para minimizar a latência
- O principal gargalo da GPU é a transferência de memória, e agrupar requisições de vários usuários em batches aumenta o throughput, mas também aumenta o tempo de espera
- O Fast mode funciona como um “ônibus que sai imediatamente”, processando o pedido assim que o usuário o envia
Essa abordagem oferece 2,5x mais velocidade com custo 6x maior
- Como não há espera para formar batch, a latência até o primeiro token diminui
- Em compensação, o throughput total da GPU cai
Alguns usuários observaram que, após o primeiro token, a espera não é tão grande, e que o efeito de batches menores se aproxima mais de um ganho de velocidade de execução por redução da carga computacional

Estrutura do Fast Mode da OpenAI

A OpenAI adotou uma abordagem completamente diferente com chips Cerebras
- Em vez do modelo existente, usa um modelo distilled mais leve chamado GPT-5.3-Codex-Spark
- O Spark é menos sofisticado que o original, mas alcança mais de 15x de velocidade de inferência
O chip Cerebras é um chip gigantesco em escala de wafer com 70 polegadas quadradas, com 44 GB de SRAM embutidos
- O modelo inteiro é carregado na SRAM, permitindo inferência in-memory sem acesso à memória externa
- Isso representa uma diferença enorme em relação aos poucos dezenas de MB de SRAM típicos de GPUs
Supõe-se que o modelo Spark fique residente com sharding em vários chips Cerebras, e essa configuração seria um fator central para o ganho de velocidade

Comparação técnica e avaliação

A Anthropic mantém o modelo existente e apenas ajusta a política de batch
A OpenAI combina uma nova arquitetura de hardware com um novo desenho de modelo para alcançar um ganho de desempenho mais fundamental
Executar um modelo sobre chips Cerebras é um desafio técnico complexo, e o treinamento do modelo Spark também não é uma tarefa simples
As duas empresas atingiram o mesmo objetivo de aumentar a velocidade por caminhos técnicos distintos, e a abordagem da OpenAI parece mais impressionante do ponto de vista técnico

Significado e limites da inferência rápida

Com os anúncios das duas empresas, pode parecer que a “inferência rápida de IA” será o próximo eixo competitivo, mas na prática há um forte componente de resposta estratégica
- A Anthropic aparentemente reagiu rapidamente ao anúncio da OpenAI
- A OpenAI ainda está na fase de divulgar resultados experimentais da parceria com a Cerebras
Modelos mais rápidos, mas menos sofisticados, têm limitações de uso no mundo real
- Como os usuários acabam gastando mais tempo lidando com erros do modelo, precisão importa mais do que velocidade
Ainda assim, esses modelos de “baixa precisão e alta velocidade” podem ser úteis como componentes subordinados em sistemas de IA
- Ex.: uso do Haiku no Claude Code, possibilidade de incorporar o Spark na OpenAI

Discussão da comunidade e observações adicionais

No Hacker News, surgiram várias opiniões sobre as características de desempenho do batching e os gargalos de comunicação entre chips
- Alguns defendem que com continuous batching praticamente não há tempo de espera
- Outros rebatem dizendo que as conexões entre chips afetam a velocidade de inferência
O trade-off entre tamanho de batch e latência continua existindo
A Anthropic deixou claro que a latência até o primeiro token ainda pode ser alta, enquanto a OpenAI tenta minimizá-la com conexões persistentes via WebSocket
No geral, a estrutura da inferência rápida de LLM é complexa e difícil de explicar com um modelo simples

1 comentários

GN⁺ 2026-02-16

Comentários do Hacker News

As pessoas estão entendendo errado o fast mode da Anthropic, provavelmente por causa do nome
Na prática, ele é mais caro e funciona de forma mais inteligente em problemas difíceis.
A abordagem de parallel distill and refine deste artigo se encaixa exatamente aqui.
A estrutura gera vários caminhos em paralelo e depois faz rapidamente a destilação (distill) e o refinamento (refine) para produzir o resultado.
Esse método consome mais tokens, mas permite saídas mais rápidas e mais inteligentes
speculative decoding não tem relação com melhora de qualidade, e batching simples aumenta a velocidade, mas reduz o custo
Gemini Deepthink e GPT-5.2-pro também fazem inferência paralela semelhante, mas calculam os caminhos completos até o fim antes de refinar o resultado
- Segundo a documentação oficial da Anthropic, o fast mode é o próprio modelo Opus 4.6, mudando apenas a configuração da API para priorizar velocidade. A qualidade é a mesma
A ideia de fazer inferência carregando o modelo inteiro na memória com os 44GB de SRAM dos chips da Cerebras é interessante
O tamanho do GPT-5.3-Codex-Spark seria limitado mais pelo número de chips interconectáveis do que pela memória de um único chip
Como a Cerebras suporta modelos maiores que 40B com mais velocidade, é bem possível que o Spark esteja mais próximo do GLM 4.7 (355B parâmetros, 32B ativos)
Veja a página de preços da Cerebras
- Ao fragmentar o modelo em shards, a velocidade cai muito. A vantagem dos chips em escala de wafer é a largura de banda de memória on-chip; se isso for perdido, deixa de fazer sentido
  As soluções da Groq, TPU e Nvidia são melhores em eficiência energética
- Como a Cerebras consegue rodar modelos maiores que 40B mais rápido, é difícil confiar na afirmação do texto original
- Conectar chips em série só aumenta a latência, e não reduz o throughput
- Mesmo com SRAM pequena, chips como os da Groq conseguem rodar modelos grandes. Portanto, interligar chips não implica necessariamente perda de velocidade
É bem provável que a Anthropic esteja roteando requisições fast para o hardware mais novo
Ela opera equipamentos de várias gerações, como TPU e GPU, então o fast mode provavelmente é processado apenas nas máquinas mais rápidas
- A largura de banda de memória do GB200 é 2,4x maior que a do H100. Por isso, é bem possível que o fast mode seja apenas uma diferença de hardware
  Técnicas como speculative decoding já devem estar em uso, então provavelmente não é por causa de melhorias em batching
Como diz a afirmação no fim do artigo, pode ser verdade hoje que precisão importa mais do que velocidade
Mas, se com a parceria OpenAI–Cerebras modelos grandes como o Codex-5.3 passarem a rodar diretamente no chip,
será possível ter modelos rápidos e precisos a ponto de substituir tarefas de atendimento ao cliente
- Ainda assim, para rodar um modelo de 5~7TB com 40GB de SRAM seriam necessários vários megawatts de energia. A Cerebras consome muita energia
  Quando surgirem silícios dedicados a LLM, deve chegar uma era muito mais eficiente
- Se o problema de queda de qualidade ao treinar com dados gerados por IA ainda não tiver sido resolvido, atualizar modelos vai ficar cada vez mais difícil
O problema de ter que esperar pelo batching já foi resolvido com continuous batching
Foi essa tecnologia que permitiu oferecer o Claude Code a baixo custo
Texto relacionado
A analogia do ônibus é meio estranha. Na prática, o fast mode funciona ao ocupar uma fatia maior do batch para aumentar o throughput
Pelo volume de tráfego da Anthropic, é de se esperar que os batches encham quase imediatamente
Fico curioso sobre por que o ChatGPT responde assim que a mensagem é enviada
O fato de não precisar esperar o batch pode ser porque o tráfego é enorme, ou porque a entrada é transmitida antecipadamente por WebSocket para a GPU
Muita gente confunde a diferença entre SRAM e HBM
A HBM é baseada em DRAM, tem grande capacidade mas é mais lenta, enquanto a SRAM é muito mais rápida, porém cara
A Cerebras integra 44GB de SRAM gigantesca em um único chip para obter velocidade extrema
Mas o design não é simples, então o desempenho real depende de vários fatores
- Os 80GB de HBM da Nvidia são memória externa, enquanto os 44GB da Cerebras são SRAM interna
  É possível que a OpenAI tenha projetado o modelo para caber em 44GB, ou que tenha conectado vários chips em cadeia
Em IA de voz em tempo real, a latência é o ponto-chave
As pessoas acham estranho esperar mais de 800ms, então o tempo disponível para inferência de LLM fica em torno de 400~500ms
Com a velocidade do Sonnet (80 tok/s), é difícil até completar uma frase, mas com a velocidade da Cerebras ou da Groq (mais de 1000 tok/s), dá para gerar mais de 400 tokens
Por isso, ajustar modelos menores de forma especializada por domínio pode ser mais eficiente do que usar modelos grandes
A abordagem de council, combinando vários agentes pequenos, é uma forma de conseguir velocidade e qualidade ao mesmo tempo
Além disso, com speculative decoding, dá para prever respostas frequentes e preparar o TTS com antecedência, permitindo respostas abaixo de 200ms em 60% das conversas
- Como a OpenAI é o único grande laboratório de pesquisa focado em modelos de voz, essa direção provavelmente vai avançar ainda mais

Duas abordagens diferentes para inferência rápida de LLM

Estrutura do Fast Mode da Anthropic

Estrutura do Fast Mode da OpenAI

Comparação técnica e avaliação

Significado e limites da inferência rápida

Discussão da comunidade e observações adicionais

Leituras relacionadas

1 comentários

Comentários do Hacker News