glhf - Execute (quase) qualquer modelo de linguagem

xguru · 2024-07-29T10:06:01+09:00

Executa quase todos os grandes modelos de linguagem open source usando vLLM e um agendador de GPU com autoescalonamento feito internamente Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 etc. Funciona sem configuração especial: basta colar o link do repositório no Hugging Face; suporta todos os repositórios Full-weight e 4-bit AWQ Pode usar até 8 GPUs Nvidia A100 80Gb Gratuito durante o período beta. Mesmo depois do fim do beta, deve ter preço melhor que os principais GPUs de nuvem por operar em modo multitenant

(glhf.chat)

5 pontos por xguru 2024-07-29 | 2 comentários | Compartilhar no WhatsApp

Executa quase todos os grandes modelos de linguagem open source usando vLLM e um agendador de GPU com autoescalonamento feito internamente
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 etc.
Funciona sem configuração especial: basta colar o link do repositório no Hugging Face; suporta todos os repositórios Full-weight e 4-bit AWQ
Pode usar até 8 GPUs Nvidia A100 80Gb
Gratuito durante o período beta. Mesmo depois do fim do beta, deve ter preço melhor que os principais GPUs de nuvem por operar em modo multitenant

2 comentários

wedding 2024-07-30

Eu estava me perguntando como poderia experimentar o llama 405b, e ele é rápido e a qualidade também é boa.

xguru 2024-07-29

vLLM: Servindo LLMs de forma fácil, rápida e barata com PagedAttention

glhf - Execute (quase) qualquer modelo de linguagem

Leituras relacionadas

2 comentários