- Anthropic e OpenAI divulgaram, cada uma, um “fast mode” para seus principais modelos de programação, aumentando bastante a velocidade de inferência
- A Anthropic mantém o mesmo modelo Opus 4.6, mas reduz o tamanho do batch para oferecer até 2,5x mais velocidade no processamento de tokens
- A OpenAI introduziu o novo modelo GPT-5.3-Codex-Spark, baseado em chips Cerebras, que gera mais de 1000 tokens por segundo, porém com menor precisão
- As duas abordagens usam princípios técnicos totalmente diferentes: inferência com batch reduzido e inferência in-memory baseada em chips gigantes
- A inferência rápida é tecnicamente impressionante, mas há quem destaque que precisão importa mais do que velocidade, e que a viabilidade econômica e prática ainda é incerta
Estrutura do Fast Mode da Anthropic
- A abordagem da Anthropic reduz o tamanho do batch para minimizar a latência
- O principal gargalo da GPU é a transferência de memória, e agrupar requisições de vários usuários em batches aumenta o throughput, mas também aumenta o tempo de espera
- O Fast mode funciona como um “ônibus que sai imediatamente”, processando o pedido assim que o usuário o envia
- Essa abordagem oferece 2,5x mais velocidade com custo 6x maior
- Como não há espera para formar batch, a latência até o primeiro token diminui
- Em compensação, o throughput total da GPU cai
- Alguns usuários observaram que, após o primeiro token, a espera não é tão grande, e que o efeito de batches menores se aproxima mais de um ganho de velocidade de execução por redução da carga computacional
Estrutura do Fast Mode da OpenAI
- A OpenAI adotou uma abordagem completamente diferente com chips Cerebras
- Em vez do modelo existente, usa um modelo distilled mais leve chamado GPT-5.3-Codex-Spark
- O Spark é menos sofisticado que o original, mas alcança mais de 15x de velocidade de inferência
- O chip Cerebras é um chip gigantesco em escala de wafer com 70 polegadas quadradas, com 44 GB de SRAM embutidos
- O modelo inteiro é carregado na SRAM, permitindo inferência in-memory sem acesso à memória externa
- Isso representa uma diferença enorme em relação aos poucos dezenas de MB de SRAM típicos de GPUs
- Supõe-se que o modelo Spark fique residente com sharding em vários chips Cerebras, e essa configuração seria um fator central para o ganho de velocidade
Comparação técnica e avaliação
- A Anthropic mantém o modelo existente e apenas ajusta a política de batch
- A OpenAI combina uma nova arquitetura de hardware com um novo desenho de modelo para alcançar um ganho de desempenho mais fundamental
- Executar um modelo sobre chips Cerebras é um desafio técnico complexo, e o treinamento do modelo Spark também não é uma tarefa simples
- As duas empresas atingiram o mesmo objetivo de aumentar a velocidade por caminhos técnicos distintos, e a abordagem da OpenAI parece mais impressionante do ponto de vista técnico
Significado e limites da inferência rápida
- Com os anúncios das duas empresas, pode parecer que a “inferência rápida de IA” será o próximo eixo competitivo, mas na prática há um forte componente de resposta estratégica
- A Anthropic aparentemente reagiu rapidamente ao anúncio da OpenAI
- A OpenAI ainda está na fase de divulgar resultados experimentais da parceria com a Cerebras
- Modelos mais rápidos, mas menos sofisticados, têm limitações de uso no mundo real
- Como os usuários acabam gastando mais tempo lidando com erros do modelo, precisão importa mais do que velocidade
- Ainda assim, esses modelos de “baixa precisão e alta velocidade” podem ser úteis como componentes subordinados em sistemas de IA
- Ex.: uso do Haiku no Claude Code, possibilidade de incorporar o Spark na OpenAI
Discussão da comunidade e observações adicionais
- No Hacker News, surgiram várias opiniões sobre as características de desempenho do batching e os gargalos de comunicação entre chips
- Alguns defendem que com continuous batching praticamente não há tempo de espera
- Outros rebatem dizendo que as conexões entre chips afetam a velocidade de inferência
- O trade-off entre tamanho de batch e latência continua existindo
- A Anthropic deixou claro que a latência até o primeiro token ainda pode ser alta, enquanto a OpenAI tenta minimizá-la com conexões persistentes via WebSocket
- No geral, a estrutura da inferência rápida de LLM é complexa e difícil de explicar com um modelo simples
1 comentários
Comentários do Hacker News
As pessoas estão entendendo errado o fast mode da Anthropic, provavelmente por causa do nome
Na prática, ele é mais caro e funciona de forma mais inteligente em problemas difíceis.
A abordagem de parallel distill and refine deste artigo se encaixa exatamente aqui.
A estrutura gera vários caminhos em paralelo e depois faz rapidamente a destilação (distill) e o refinamento (refine) para produzir o resultado.
Esse método consome mais tokens, mas permite saídas mais rápidas e mais inteligentes
speculative decoding não tem relação com melhora de qualidade, e batching simples aumenta a velocidade, mas reduz o custo
Gemini Deepthink e GPT-5.2-pro também fazem inferência paralela semelhante, mas calculam os caminhos completos até o fim antes de refinar o resultado
A ideia de fazer inferência carregando o modelo inteiro na memória com os 44GB de SRAM dos chips da Cerebras é interessante
O tamanho do GPT-5.3-Codex-Spark seria limitado mais pelo número de chips interconectáveis do que pela memória de um único chip
Como a Cerebras suporta modelos maiores que 40B com mais velocidade, é bem possível que o Spark esteja mais próximo do GLM 4.7 (355B parâmetros, 32B ativos)
Veja a página de preços da Cerebras
As soluções da Groq, TPU e Nvidia são melhores em eficiência energética
É bem provável que a Anthropic esteja roteando requisições fast para o hardware mais novo
Ela opera equipamentos de várias gerações, como TPU e GPU, então o fast mode provavelmente é processado apenas nas máquinas mais rápidas
Técnicas como speculative decoding já devem estar em uso, então provavelmente não é por causa de melhorias em batching
Como diz a afirmação no fim do artigo, pode ser verdade hoje que precisão importa mais do que velocidade
Mas, se com a parceria OpenAI–Cerebras modelos grandes como o Codex-5.3 passarem a rodar diretamente no chip,
será possível ter modelos rápidos e precisos a ponto de substituir tarefas de atendimento ao cliente
Quando surgirem silícios dedicados a LLM, deve chegar uma era muito mais eficiente
O problema de ter que esperar pelo batching já foi resolvido com continuous batching
Foi essa tecnologia que permitiu oferecer o Claude Code a baixo custo
Texto relacionado
A analogia do ônibus é meio estranha. Na prática, o fast mode funciona ao ocupar uma fatia maior do batch para aumentar o throughput
Pelo volume de tráfego da Anthropic, é de se esperar que os batches encham quase imediatamente
Fico curioso sobre por que o ChatGPT responde assim que a mensagem é enviada
O fato de não precisar esperar o batch pode ser porque o tráfego é enorme, ou porque a entrada é transmitida antecipadamente por WebSocket para a GPU
Muita gente confunde a diferença entre SRAM e HBM
A HBM é baseada em DRAM, tem grande capacidade mas é mais lenta, enquanto a SRAM é muito mais rápida, porém cara
A Cerebras integra 44GB de SRAM gigantesca em um único chip para obter velocidade extrema
Mas o design não é simples, então o desempenho real depende de vários fatores
É possível que a OpenAI tenha projetado o modelo para caber em 44GB, ou que tenha conectado vários chips em cadeia
Em IA de voz em tempo real, a latência é o ponto-chave
As pessoas acham estranho esperar mais de 800ms, então o tempo disponível para inferência de LLM fica em torno de 400~500ms
Com a velocidade do Sonnet (80 tok/s), é difícil até completar uma frase, mas com a velocidade da Cerebras ou da Groq (mais de 1000 tok/s), dá para gerar mais de 400 tokens
Por isso, ajustar modelos menores de forma especializada por domínio pode ser mais eficiente do que usar modelos grandes
A abordagem de council, combinando vários agentes pequenos, é uma forma de conseguir velocidade e qualidade ao mesmo tempo
Além disso, com speculative decoding, dá para prever respostas frequentes e preparar o TTS com antecedência, permitindo respostas abaixo de 200ms em 60% das conversas