5 pontos por xguru 2024-07-29 | 2 comentários | Compartilhar no WhatsApp
  • Executa quase todos os grandes modelos de linguagem open source usando vLLM e um agendador de GPU com autoescalonamento feito internamente
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 etc.
  • Funciona sem configuração especial: basta colar o link do repositório no Hugging Face; suporta todos os repositórios Full-weight e 4-bit AWQ
  • Pode usar até 8 GPUs Nvidia A100 80Gb
  • Gratuito durante o período beta. Mesmo depois do fim do beta, deve ter preço melhor que os principais GPUs de nuvem por operar em modo multitenant

2 comentários

 
wedding 2024-07-30

Eu estava me perguntando como poderia experimentar o llama 405b, e ele é rápido e a qualidade também é boa.