Cerebras Inference processa 969 tokens por segundo no Llama 3.1 405B

(cerebras.ai)

3 pontos por GN⁺ 2024-11-20 | 1 comentários | Compartilhar no WhatsApp

Modelos frontier de grande porte normalmente tinham velocidade e latência como gargalos, mas o Cerebras Inference registrou 969 tokens de saída por segundo em cargas de trabalho de clientes com o Llama 3.1 405B
Com base em um prompt de 1.000 tokens, o resultado foi 8 vezes mais rápido que o SambaNova, 12 vezes mais rápido que a nuvem de GPU mais rápida e 75 vezes mais rápido que a AWS
Em entradas de 100.000 tokens, apenas 6 fornecedores retornaram resultados, e a Cerebras foi a única fornecedora não baseada em GPU a concluir o benchmark, alcançando 539 tokens por segundo
O tempo até o primeiro token foi de 240 ms, e clientes que migraram do GPT-4 relataram redução de 75% na latência total
O Cerebras Inference para o Llama 3.1 405B está disponível atualmente em versão de testes para clientes, com disponibilidade geral no 1º trimestre de 2025 e preço previsto de US$ 6/M de tokens de entrada · US$ 12/M de tokens de saída

Recorde de desempenho do Llama 3.1 405B

O Cerebras Inference alcançou 969 output tokens/s ao executar o Llama 3.1 405B
- Resultado com base em um prompt de 1.000 tokens
- Segundo medições da Artificial Analysis, estabeleceu recordes em velocidade de saída, desempenho em contexto longo e tempo até o primeiro token
Na mesma comparação, o Llama 3.1 405B no Cerebras é apresentado como 12 vezes mais rápido que o GPT-4o e 18 vezes mais rápido que o Claude 3.5 Sonnet
Neste ano, a Cerebras elevou o Llama 3.1 8B e 70B para mais de 2.000 tokens/s, e explicou que modelos frontier como GPT-4o, Claude 3.5 Sonnet e Llama 3.1 405B não conseguiam passar de 200 tokens/s em GPU, ASIC ou nuvem
A comparação com base em um prompt de 1.000 tokens é a seguinte
- 8 vezes mais rápido que o SambaNova
- 12 vezes mais rápido que a nuvem de GPU mais rápida
- 75 vezes mais rápido que a AWS
Em prompts de entrada com 100.000 tokens, registrou 539 tokens/s
- Apenas 6 fornecedores retornaram resultados
- A Cerebras foi a única fornecedora não baseada em GPU a concluir o benchmark
- 11 vezes mais rápido que a Fireworks e 44 vezes mais rápido que a AWS

Latência, cronograma de disponibilidade e preço

O Cerebras Inference para o Llama 3.1 405B registrou 240 ms de tempo até o primeiro token
- O tempo até o primeiro token é o principal indicador de latência percebida pelo usuário em aplicações reais
- Em soluções baseadas em GPU, o tempo de resposta inicial pode se estender por vários segundos
Clientes que migraram do GPT-4 para o Cerebras Inference relataram redução de 75% na latência total
- Isso leva a uma melhora na experiência do usuário em casos de uso onde interação em tempo real é importante, como aplicações de IA de voz e vídeo
O Cerebras Inference para o Llama 3.1 405B está disponível atualmente em versão de testes para clientes
- A disponibilidade geral está prevista para o 1º trimestre de 2025
- O preço é de US$ 6 por 1 milhão de tokens de entrada e US$ 12 por 1 milhão de tokens de saída
- O preço de saída é 20% menor que o da AWS, Azure e GCP
A combinação da abordagem aberta da Meta com a tecnologia de inferência da Cerebras é apresentada como capaz de executar o Llama 3.1 405B mais de 10 vezes mais rápido que modelos frontier fechados
- É apresentada como uma base adequada para aplicações de voz, vídeo e raciocínio, em que baixa latência e muitas etapas de inferência são importantes

1 comentários

GN⁺ 2024-11-20

Opiniões no Hacker News

É realmente surpreendentemente rápido. Mesmo uma implementação própria do Llama 3.1 70B em um cluster 8x H100 mal consegue passar de 100 tokens/s; fico curioso para saber como fazem isso.
Só com técnicas comuns, como speculative decoding ou FlashAttention, acho que não chegariam nem perto; parece que no mínimo seria necessário algo como inferência multinó ou atenção esparsa.
- A Cerebras cria uma CPU com cerca de 1 milhão de núcleos e faz a inferência nela, não em GPUs. É uma arquitetura completamente diferente, então a rede não entra no caminho.
  Também é possível que boa parte do processamento aconteça no cache da CPU, mais do que em HBM. Para entender o design do chip, recomendo os vídeos do TechTechPotato no YouTube sobre a Cerebras.
- Eles fazem isso com silício customizado com uma área várias vezes maior que 8x H100. Claro que também deve haver otimizações de execução/runtime, mas a diferença central provavelmente é a quantidade esmagadora de transistores.
  https://cerebras.ai/product-chip/
- O chip tem o tamanho de um prato. Pelas fotos dá para ter uma noção: https://cerebras.ai/product-chip/
- A Cerebras é uma empresa de chips e não usa GPUs. Esse chip usa integração em escala de wafer, então fisicamente tem o tamanho de um wafer inteiro, como se dezenas de GPUs fossem combinadas em uma só.
  A memória on-chip é limitada e toda em SRAM, e não está claro qual é a largura de banda de HBM por wafer. É um problema de otimização completamente diferente de rodar em um cluster de GPUs.
- O grande segredo são duas coisas: o chip é enorme e usa SRAM como memória, muito mais rápida que a HBM das GPUs.
  Na verdade, esse é o principal motivo de ser tão rápido. A Groq também consegue velocidade pelo mesmo motivo.
Não tenho certeza se a latência aqui está mesmo sendo comparada nas mesmas condições. A latência se divide grosso modo em três partes: processamento de contexto/prompt, tempo de fila esperando acesso ao hardware e overhead comum de API, como rede.
Pelo que entendo, vários dos serviços comparados, talvez todos, não são baseados em capacidade reservada, então as medições incluem tempo de fila. Em LLMs, esse tempo pode ser bem grande. Já os números da Cerebras provavelmente tiveram acesso garantido ao hardware, então quase não devem incluir tempo de fila que cresce indefinidamente.
O throughput em si é impressionante, mas entregar esse throughput com baixa latência ao usuário final exige superprovisionamento, e não está claro como a fila afetaria isso. Também fico curioso se a referência é para uma máquina com o modelo já carregado, ou se inclui o tempo de carregamento do modelo quando necessário. Também é preciso ver se a latência muda ao usar um modelo com fine-tuning.
Para trabalhos em lote que conseguem utilizar uma máquina Cerebras a 100% e extrair continuamente 1 mil tokens/s, isso certamente parece vantajoso.
- Mesmo assumindo que todos estejam em condições ideais, é incrível. Com batch size 1, um modelo de 405B parâmetros a 1.000 tokens/s é absurdamente rápido.
Olhando para o que já dá para fazer com modelos da geração atual combinados com RAG, múltiplos agentes e interpretadores de código, a barreira agora parece estar mais na latência do modelo do que na precisão.
Com esse nível de throughput de tokens em modelos na faixa de 405B, muitas experiências interativas se tornam possíveis.
- Não sei bem como um livro de regras ajudaria na resolução de incidentes. Acho que incidentes deveriam ser novos a cada vez, porque você corrige a causa raiz.
  Então, a cada vez, é preciso investigar o código ou o código recém-implantado e correlacionar com métricas operacionais. A menos que esse livro de regras signifique apenas um procedimento simples de rollback.
Para deixar claro, um único chip da Cerebras usa um wafer inteiro, mas tem apenas 44 GB de SRAM em cima dele. Para colocar um modelo 405B em precisão bf16, seriam necessários 19 desses “chips”, mesmo excluindo KV cache e memória de ativações.
À medida que o comprimento da sequência aumenta, os requisitos crescem ainda mais por causa do KV cache. Pesquisando, parece que cabem cerca de 60 a 80 chips H100 em um wafer, então, em termos de custo de fabricação de wafer, é parecido com usar mais de 1.500 H100.
- O orçamento que essas empresas gastam nessa tecnologia é realmente inimaginável.
- Fico curioso se o custo do wafer representa uma fatia grande do preço real do chip.
Desempenho realmente impressionante. Vejo uma chance bastante alta de a Nvidia tentar adquirir a Cerebras.
- A Cerebras está considerando um IPO. A possibilidade de aquisição parece baixa. Ainda assim, se for adquirida, acho que teria mais valor para Facebook ou MS.
Para usar a API, é preciso entrar em uma lista de espera. Quando uma empresa faz alegações desse tipo, mas não oferece o serviço para compra, é preciso manter certo ceticismo.
Entre as startups de chips de IA, a Cerebras talvez seja a verdadeira.
- A Groq também é real. Mas, até agora, a Cerebras parece não ter escalado tão amplamente quanto a Groq. É esperar para ver.
- O timing caiu certinho para o IPO.
Não há menção à Groq, concorrente direta?
- Sou cliente pago da Groq e uso com satisfação, mas na faixa de 405B ela não compete com a Cerebras.
  A Groq tem a vantagem de aceitar clientes pagos abaixo do nível enterprise e de oferecer uma variedade ampla de modelos, sem ser tão seletiva quanto a Cerebras. Mas em velocidade pura e nos modelos de maior porte, é difícil comparar a Groq.
- A Sambanova também não é muito mencionada [0]. Um dos cofundadores é conhecido como o “pai dos processadores multicore” [1].
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
Fico curioso sobre quanto custa oferecer um serviço com essa latência. Do ponto de vista do cliente, o custo fixo vai variar conforme a estratégia de preços, mas no fim o custo é o que determina o alcance de adoção dessa tecnologia.
O importante é saber se ela serve apenas para negócios que realmente precisam dessa latência, ou se está em um nível que pode ser implantado de forma geral.
- Será que construir chips enormes e usar SRAM pode se tornar o padrão para todos?
  Quantos fabricantes de SRAM existem? Ou é uma arquitetura que precisa necessariamente estar totalmente integrada dentro do chip?
Se esse tipo de ganho de desempenho é possível com hardware novo, fico curioso para saber quanto mais o desempenho de treinamento também pode ser puxado pelo hardware.
- Se não houver uma grande mudança em machine learning, acho que não será algo enorme. Há dois eixos aqui: ganhos de eficiência e aumento de computação.
  Aumentar a computação é a forma mais clara de elevar a velocidade, mas, em um determinado nó de processo e precisão de tipo de dado, parece que já estamos bem perto dos limites físicos. É difícil provar com certeza, mas há alguns indícios. A multiplicação de matrizes, operação básica dos LLMs, é muito simples em comparação com trabalhos de CPU, então partes como lógica de fluxo de controle são bastante minimizadas. A maior parte da energia vai para a própria multiplicação de matrizes, e a multiplicação de matrizes de fato é limitada por energia[1]. Mudar a precisão traria ganhos, mas é difícil, e já se usam precisões muito baixas, como fp8; fp8 nem consegue representar 17. Pesquisas recentes também mostram limites.
  A eficiência de treinamento de LLMs é medida por um critério bastante severo chamado “utilização de FLOPS do modelo (MFU)”. Ele divide os FLOPS teóricos que o hardware pode fornecer pelos FLOPS teóricos necessários para implementar as operações matemáticas. Só com FSDP já é fácil chegar a 30%, e 50–60% não é impossível nem sem precedentes. As ineficiências surgem principalmente porque 1) o hardware não consegue entregar, por vários motivos, os FLOPS anunciados na prática e 2) é preciso sincronizar terabytes de dados entre dezenas de milhares de máquinas. O limite teórico é 2x, mas na prática não há muito mais margem para extrair.
  Os ganhos daqui para frente provavelmente se concentrarão em TPUs que reduzem as margens da Nvidia, melhorias de nó de processo, redução de tipos de dado como no B100, ou aumento do tamanho dos chips para reduzir a comunicação cara entre chips. Com a mesma precisão e o mesmo nó de processo, não parece haver espaço para uma melhoria de 10x.
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- A solução definitiva talvez seja transformar LLMs em ASICs puros.
  O desempenho deve subir cerca de 10x, mas seria uma solução muito cara.

Cerebras Inference processa 969 tokens por segundo no Llama 3.1 405B

Recorde de desempenho do Llama 3.1 405B

Latência, cronograma de disponibilidade e preço

Leituras relacionadas

1 comentários

Opiniões no Hacker News