16 pontos por xguru 2023-03-13 | 1 comentários | Compartilhar no WhatsApp
  • Objetivo de executar o modelo LLaMA em um MacBook com quantização de 4 bits
  • Implementação em C/C++ puro, sem dependências
  • Otimizado para Arm Neon/framework Accelerate (Apple Silicon)
  • Suporte a AVX2 para x86
  • Precisão mista F16/F32
  • Suporte a quantização de 4 bits
  • Execução na CPU
  • Atualmente, suporta apenas Mac/Linux. Suporte ao Windows previsto

1 comentários

 
laeyoung 2023-03-14

Testei o modelo 7B e ele roda melhor do que eu esperava.