19 pontos por darjeeling 6 일 전 | 4 comentários | Compartilhar no WhatsApp

O recipes.vllm.ai foi amplamente reformulado. Agora é possível obter de forma interativa a resposta para “como executar o modelo X no hardware Y com vLLM?”.

Principais mudanças

URL espelho do HuggingFace — troque huggingface.co por recipes.vllm.ai para ir direto à receita daquele modelo (ex.: recipes.vllm.ai/Qwen/Qwen3.6-35B-A3B)

Construtor interativo de comandos — ao selecionar hardware, variante e estratégia de paralelização, é gerado um comando vllm serve pronto para uso

Hardware conectável — alternância com um clique entre NVIDIA (Hopper/Blackwell) ↔ AMD (MI300X/MI355X), com flags e variáveis de ambiente aplicadas automaticamente

API JSON — todas as receitas são fornecidas pela rota /.json, permitindo consumo direto por agentes e ferramentas de automação

Contribuindo com receitas via Agent Skills

O repositório inclui Agent Skills, permitindo contribuir com novas receitas de ponta a ponta. O agente orienta desde a execução de benchmarks até a geração da receita e o envio do PR.

→ github.com/vllm-project/recipes

4 comentários

 
hmmhmmhm 6 일 전

Daqui a pouco será implantação com um clique em qualquer dispositivo... caramba.

 
darjeeling 6 일 전

Parece que agora todos os voltados para serviço vão surgir.

 
arthurk 6 일 전

Parece que ainda faltam muitos modelos.

 
darjeeling 6 일 전

Então, parece uma ótima oportunidade para contribuir.