Reformulação do vLLM Recipes — configuração em um clique por combinação de modelo + hardware
(recipes.vllm.ai)O recipes.vllm.ai foi amplamente reformulado. Agora é possível obter de forma interativa a resposta para: “como executar o modelo X no hardware Y com vLLM?”.
Principais mudanças
URL espelho do HuggingFace — troque huggingface.co por recipes.vllm.ai para ir direto à receita daquele modelo (ex.: recipes.vllm.ai/Qwen/Qwen3.6-35B-A3B)
Builder interativo de comandos — escolha o hardware, a variante e a estratégia de paralelização para gerar na hora um comando vllm serve pronto para uso
Hardware plugável — alternância com um clique entre NVIDIA (Hopper/Blackwell) e AMD (MI300X/MI355X), com aplicação automática de flags e variáveis de ambiente
API JSON — todas as receitas são fornecidas pela rota /.json, podendo ser consumidas diretamente por agentes e ferramentas de automação
Contribuindo com receitas via agent skills
O repositório inclui agent skills, permitindo contribuir com novas receitas de ponta a ponta. O agente orienta desde a execução de benchmarks até a geração da receita e o envio do PR.
→ github.com/vllm-project/recipes
4 comentários
Daqui a pouco será implantação com um clique em qualquer dispositivo... caramba.
Parece que agora todos os voltados para serviço vão surgir.
Parece que ainda faltam muitos modelos.
Então, parece uma ótima oportunidade para contribuir.