- Executa quase todos os grandes modelos de linguagem open source usando vLLM e um agendador de GPU com autoescalonamento feito internamente
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 etc.
- Funciona sem configuração especial: basta colar o link do repositório no Hugging Face; suporta todos os repositórios Full-weight e 4-bit AWQ
- Pode usar até 8 GPUs Nvidia A100 80Gb
- Gratuito durante o período beta. Mesmo depois do fim do beta, deve ter preço melhor que os principais GPUs de nuvem por operar em modo multitenant
2 comentários
Eu estava me perguntando como poderia experimentar o llama 405b, e ele é rápido e a qualidade também é boa.
vLLM: Servindo LLMs de forma fácil, rápida e barata com PagedAttention