Show GN: Atenção Paginada Minimalista (github.com/tspeterkim) 1 pontos por tspeterkim 2024-06-29 | Ainda não há comentários. | Compartilhar no WhatsApp Leituras relacionadas vLLM: serviço de LLM fácil, rápido e barato com PagedAttention 8 pontos · 0 comentários · 2023-06-23 vLLM PagedAttention: uma revolução no throughput de inferência de LLMs 14 pontos · 1 comentários · 2025-09-02 Compilando LLMs em um MegaKernel para viabilizar inferência de baixa latência 15 pontos · 1 comentários · 2025-06-21 MiniLLM - Executando LLMs em GPUs pessoais 22 pontos · 0 comentários · 2023-03-30 Microsoft LLMLingua - Compactando prompts para acelerar a inferência e reduzir custos 10 pontos · 0 comentários · 2023-12-22 Ainda não há comentários. Ainda não há comentários.
Ainda não há comentários.