3 pontos por GN⁺ 2024-11-20 | 1 comentários | Compartilhar no WhatsApp

Destaques do Llama 3.1 405B no Cerebras Inference

  • Gera 969 tokens de saída por segundo — 12 vezes mais rápido que o melhor resultado com GPU
  • Tempo até o primeiro token de 240 ms — menor que o da maioria das APIs
  • Suporte a contexto de 128K — o melhor desempenho já registrado
  • Pesos em 16 bits — mantém a precisão total do modelo
  • Disponibilidade geral prevista para o 1º trimestre de 2025, com preço de US$ 6 por milhão de tokens de entrada e US$ 12 por milhão de tokens de saída

IA de fronteira com velocidade instantânea

  • A Cerebras elevou o Llama 3.1 8B e 70B neste ano para mais de 2.000 tokens por segundo
  • Modelos de fronteira como GPT-4o, Claude 3.5 Sonnet e Llama 3.1 405B nunca haviam ultrapassado 200 tokens por segundo em GPU, ASIC ou nuvem
  • O Cerebras Inference resolve esse problema e permite que o Llama 3.1 405B entregue desempenho total com contexto de 128K
  • Bateu recorde ao gerar 969 tokens de saída por segundo com um prompt de 1.000 tokens
  • Alcançou 539 tokens/s com um prompt de entrada de 100.000 tokens, sendo 11 vezes mais rápido que o Fireworks e 44 vezes mais rápido que a AWS

Melhor latência

  • O tempo até o primeiro token é um dos indicadores mais importantes em aplicações reais
  • Com 240 milissegundos, a Cerebras oferece o tempo até o primeiro token mais rápido entre todas as plataformas que executam o Llama 3.1-405B
  • O tempo de resposta, muito mais rápido que o de soluções baseadas em GPU, melhora significativamente a experiência do usuário

Disponibilidade

  • O Cerebras Inference para o Llama 3.1-405B está atualmente em testes com clientes e tem disponibilidade geral prevista para o 1º trimestre de 2025
  • O preço de saída é 20% mais barato que AWS, Azure e GCP

O modelo aberto é o modelo mais rápido

  • Graças à abordagem aberta da Meta e à tecnologia inovadora de inferência da Cerebras, o Llama 3.1-405B roda mais de 10 vezes mais rápido que modelos de fronteira fechados
  • Fornece uma base adequada para aplicações de voz, vídeo e raciocínio

1 comentários

 
GN⁺ 2024-11-20
Comentários do Hacker News
  • É difícil passar de 100 tok/s ao implementar o modelo Llama 3.1 70b em um cluster com 8x H100

    • Fico curioso sobre como eles alcançaram essa velocidade
    • Parece que seriam necessários inferência multinó e um mecanismo de atenção esparsa
  • Não tenho certeza se a comparação de latência é justa

    • A latência inclui a taxa de processamento de contexto/prompt, a espera por acesso ao hardware e outros overheads de API
    • É bem provável que os números da Cerebras quase não incluam tempo de espera
  • Para oferecer alta vazão com boa latência, é necessário overprovisioning excessivo

    • Não está claro se a latência inclui o carregamento do modelo
    • Em tarefas em lote, dá para manter 1k tokens/s de forma contínua usando 100% de uma máquina da Cerebras
  • Com os modelos da geração atual, RAG, múltiplos agentes e interpretadores de código, a latência do modelo vira o gargalo

    • A vazão de tokens de um modelo da classe 405B pode viabilizar muitas experiências interativas
  • Os chips da Cerebras usam o wafer inteiro e incluem apenas 44GB de SRAM

    • Para acomodar um modelo 405B em precisão bf16, são necessários 19 chips
    • Em termos de custo de fabricação do wafer, isso equivale a usar mais de 1500 H100
  • Existe uma lista de espera para testar a API

    • Quando não é possível comprar o serviço, é preciso ser cético em relação às alegações da empresa
  • Acho provável que a Nvidia adquira a Cerebras

  • É impressionante que seja possível melhorar o desempenho com novo hardware

    • Fico curioso sobre qual é o limite das melhorias de desempenho de treinamento via hardware
  • Gostaria de ver uma comparação de tokens/segundo/watt

  • Não há menção à concorrente Groq

  • Fico curioso sobre o custo necessário para oferecer um serviço com essa latência

    • O custo determina o quão amplamente isso pode ser adotado
    • Quero saber se isso é só para negócios que realmente precisam de baixa latência ou se pode ser implantado de forma geral