Destaques do Llama 3.1 405B no Cerebras Inference
- Gera 969 tokens de saída por segundo — 12 vezes mais rápido que o melhor resultado com GPU
- Tempo até o primeiro token de 240 ms — menor que o da maioria das APIs
- Suporte a contexto de 128K — o melhor desempenho já registrado
- Pesos em 16 bits — mantém a precisão total do modelo
- Disponibilidade geral prevista para o 1º trimestre de 2025, com preço de US$ 6 por milhão de tokens de entrada e US$ 12 por milhão de tokens de saída
IA de fronteira com velocidade instantânea
- A Cerebras elevou o Llama 3.1 8B e 70B neste ano para mais de 2.000 tokens por segundo
- Modelos de fronteira como GPT-4o, Claude 3.5 Sonnet e Llama 3.1 405B nunca haviam ultrapassado 200 tokens por segundo em GPU, ASIC ou nuvem
- O Cerebras Inference resolve esse problema e permite que o Llama 3.1 405B entregue desempenho total com contexto de 128K
- Bateu recorde ao gerar 969 tokens de saída por segundo com um prompt de 1.000 tokens
- Alcançou 539 tokens/s com um prompt de entrada de 100.000 tokens, sendo 11 vezes mais rápido que o Fireworks e 44 vezes mais rápido que a AWS
Melhor latência
- O tempo até o primeiro token é um dos indicadores mais importantes em aplicações reais
- Com 240 milissegundos, a Cerebras oferece o tempo até o primeiro token mais rápido entre todas as plataformas que executam o Llama 3.1-405B
- O tempo de resposta, muito mais rápido que o de soluções baseadas em GPU, melhora significativamente a experiência do usuário
Disponibilidade
- O Cerebras Inference para o Llama 3.1-405B está atualmente em testes com clientes e tem disponibilidade geral prevista para o 1º trimestre de 2025
- O preço de saída é 20% mais barato que AWS, Azure e GCP
O modelo aberto é o modelo mais rápido
- Graças à abordagem aberta da Meta e à tecnologia inovadora de inferência da Cerebras, o Llama 3.1-405B roda mais de 10 vezes mais rápido que modelos de fronteira fechados
- Fornece uma base adequada para aplicações de voz, vídeo e raciocínio
1 comentários
Comentários do Hacker News
É difícil passar de 100 tok/s ao implementar o modelo Llama 3.1 70b em um cluster com 8x H100
Não tenho certeza se a comparação de latência é justa
Para oferecer alta vazão com boa latência, é necessário overprovisioning excessivo
Com os modelos da geração atual, RAG, múltiplos agentes e interpretadores de código, a latência do modelo vira o gargalo
Os chips da Cerebras usam o wafer inteiro e incluem apenas 44GB de SRAM
Existe uma lista de espera para testar a API
Acho provável que a Nvidia adquira a Cerebras
É impressionante que seja possível melhorar o desempenho com novo hardware
Gostaria de ver uma comparação de tokens/segundo/watt
Não há menção à concorrente Groq
Fico curioso sobre o custo necessário para oferecer um serviço com essa latência