Reformulação do vLLM Recipes — configurações por combinação de modelo + hardware com um clique
(recipes.vllm.ai)O recipes.vllm.ai foi amplamente reformulado. Agora é possível obter de forma interativa a resposta para “como executar o modelo X no hardware Y com vLLM?”.
Principais mudanças
URL espelho do HuggingFace — troque huggingface.co por recipes.vllm.ai para ir direto à receita daquele modelo (ex.: recipes.vllm.ai/Qwen/Qwen3.6-35B-A3B)
Construtor interativo de comandos — ao selecionar hardware, variante e estratégia de paralelização, é gerado um comando vllm serve pronto para uso
Hardware conectável — alternância com um clique entre NVIDIA (Hopper/Blackwell) ↔ AMD (MI300X/MI355X), com flags e variáveis de ambiente aplicadas automaticamente
API JSON — todas as receitas são fornecidas pela rota /.json, permitindo consumo direto por agentes e ferramentas de automação
Contribuindo com receitas via Agent Skills
O repositório inclui Agent Skills, permitindo contribuir com novas receitas de ponta a ponta. O agente orienta desde a execução de benchmarks até a geração da receita e o envio do PR.
→ github.com/vllm-project/recipes
4 comentários
Daqui a pouco será implantação com um clique em qualquer dispositivo... caramba.
Parece que agora todos os voltados para serviço vão surgir.
Parece que ainda faltam muitos modelos.
Então, parece uma ótima oportunidade para contribuir.