19 pontos por darjeeling 2026-04-23 | 4 comentários | Compartilhar no WhatsApp

O recipes.vllm.ai foi amplamente reformulado. Agora é possível obter de forma interativa a resposta para: “como executar o modelo X no hardware Y com vLLM?”.

Principais mudanças

URL espelho do HuggingFace — troque huggingface.co por recipes.vllm.ai para ir direto à receita daquele modelo (ex.: recipes.vllm.ai/Qwen/Qwen3.6-35B-A3B)

Builder interativo de comandos — escolha o hardware, a variante e a estratégia de paralelização para gerar na hora um comando vllm serve pronto para uso

Hardware plugável — alternância com um clique entre NVIDIA (Hopper/Blackwell) e AMD (MI300X/MI355X), com aplicação automática de flags e variáveis de ambiente

API JSON — todas as receitas são fornecidas pela rota /.json, podendo ser consumidas diretamente por agentes e ferramentas de automação

Contribuindo com receitas via agent skills

O repositório inclui agent skills, permitindo contribuir com novas receitas de ponta a ponta. O agente orienta desde a execução de benchmarks até a geração da receita e o envio do PR.

→ github.com/vllm-project/recipes

4 comentários

 
hmmhmmhm 2026-04-23

Daqui a pouco será implantação com um clique em qualquer dispositivo... caramba.

 
darjeeling 2026-04-23

Parece que agora todos os voltados para serviço vão surgir.

 
arthurk 2026-04-23

Parece que ainda faltam muitos modelos.

 
darjeeling 2026-04-23

Então, parece uma ótima oportunidade para contribuir.