3 pontos por GN⁺ 2025-07-12 | 1 comentários | Compartilhar no WhatsApp
  • O Manual de Inferência de LLM oferece uma visão abrangente dos conceitos essenciais e técnicas de otimização necessárias para inferência de LLM em ambientes reais de produção
  • Fornece informações indispensáveis para o trabalho prático, como métricas de desempenho (ex.: Time to First Token, Tokens per Second) e boas práticas operacionais
  • Explica em detalhe os métodos mais recentes de otimização, como batching contínuo e cache de prefixo
  • Reúne em um só lugar o conhecimento disperso sobre inferência de LLM, aumentando a compreensão e a aplicabilidade para desenvolvedores
  • O manual é atualizado continuamente para refletir informações recentes de campo e metodologias comprovadas

Introdução ao Manual de Inferência de LLM

LLM Inference in Production combina glossário técnico, guia prático e obra de referência em um só formato
Neste manual, são tratados em detalhe os conteúdos que precisam ser conhecidos na prática, como conceitos básicos de inferência de LLM, métricas de desempenho, técnicas de otimização (batching contínuo, cache de prefixo etc.) e boas práticas operacionais

  • Apresenta orientações práticas para implantação, escalabilidade e operação de LLMs em ambientes de produção
  • Exclui exceções irreais e ruído técnico desnecessário, concentrando-se no que importa em campo
  • Apresenta técnicas de melhoria de desempenho adequadas a cada caso de uso, ajudando de forma concreta na otimização de performance
  • Atualiza continuamente as tendências mais recentes do setor e insights validados na prática

Motivação para a escrita

Desenvolvedores têm dificuldade para encontrar informações sobre inferência de LLM, ou enfrentam o problema da fragmentação do conhecimento por elas estarem espalhadas em vários lugares
A equipe responsável pelo manual reuniu conteúdos dispersos em artigos, blogs de fornecedores, issues do GitHub e conversas no Discord para organizar de forma que seja possível entender de uma só vez:

  • A diferença entre treinamento e inferência de LLM
  • A relação entre Goodput e o cumprimento de SLOs
  • O uso prático da técnica de separação Prefill-Decode

Público-alvo

Este manual foi criado para engenheiros que implantam, escalam e operam LLMs em ambientes de produção
Desde o fine-tuning de pequenos modelos abertos até a operação de infraestrutura própria em grande escala,

  • tem como principais leitores todos que querem tornar a inferência de LLM mais rápida, mais barata e mais confiável

Como usar

Este manual pode ser lido do começo ao fim ou consultado como uma obra de referência, buscando apenas as partes necessárias
Não há ordem de entrada nem forma de uso específica, e

  • novos conteúdos continuarão sendo adicionados e atualizados para acompanhar as rápidas mudanças na área de inferência de LLM

Como contribuir

Erros encontrados, sugestões de melhoria e inclusão de novos tópicos são bem-vindos

  • Qualquer pessoa pode participar registrando uma issue ou enviando um Pull Request ao repositório no GitHub

1 comentários

 
GN⁺ 2025-07-12
Comentários do Hacker News
  • Olá, sou um dos mantenedores principais deste projeto. Fico feliz e honrado que nosso projeto tenha sido apresentado no Hacker News. Criamos este handbook para que desenvolvedores que constroem aplicações reais com LLM também possam acessar com facilidade os conceitos de inferência de LLM. Queríamos reunir de forma clara, prática e escalável conhecimentos que estavam espalhados em vários lugares. Vamos continuar melhorando para tornar o handbook cada vez melhor, então estamos recebendo feedback ativamente. Também agradeceria se dessem uma olhada no repositório no GitHub
    • Muito obrigado por organizar isso tão bem. Tenho uma pergunta: olhando esta imagem, que define TTFT e ITL, parece que o modelo gera 4 tokens de T0 a T3 e só então emite um token de saída. Na minha visão, essa figura parece mais adequada para explicar ITL. No caso de TTFT, eu esperaria que, na etapa de decode, apenas T0 fosse gerado e imediatamente passasse para a detokenization, para que o primeiro token de saída chegasse logo em seguida (especialmente porque, em um ambiente de streaming, medir TTFT fora desse contexto não faria muito sentido)
    • Não pretendo abrir uma issue separada, mas gostaria que a seção de self-hosting do handbook recomendasse de forma mais explícita soluções open source de inferência com self-hosting local, como o llama.cpp
    • Gostei deste handbook; ele parece útil e bem organizado. Mas está dividido em páginas pequenas demais, e no mobile o sumário não aparece por padrão, então fica desconfortável de ler. Acabei lendo só algumas páginas e parei. Pelo menos cada seção poderia aparecer em uma única página
    • Trabalho realmente incrível, muito bonito e útil
  • O design também está muito bonito, e fiquei curioso: queria saber qual é a tendência ou o nome desse estilo de design usado no site. Gostei bastante do design deste site também
    • Parece que usa o framework CSS padrão chamado Infima. Esse é o framework CSS padrão do Docusaurus, aproveitando a própria system font stack. O font-family é -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif
  • Espero que no futuro também sejam adicionados mais conteúdos sobre Structured outputs/Guided generation e sampling. Como referência adicional para algoritmos de sampling na etapa de inferência, isto aqui também vale a pena consultar
    • Uau, esse material resumindo sampling também é realmente muito detalhado
  • Fico muito feliz que esse tipo de handbook tenha surgido. Entendo o interesse e a empolgação com treinamento de modelos nos materiais públicos, mas operar bem um modelo na prática também é extremamente importante. Para que isso seja adotado amplamente em diferentes aplicações, o conhecimento sobre execução e operação vai se tornar cada vez mais necessário
  • Obrigado por reunir e organizar tudo assim. Daqui para frente, acho que bastará compartilhar este único link para que pessoas interessadas possam aprender. Uma sugestão: na página "OpenAI-compatible API", seria bom incluir também exemplos de chamadas REST puras, sem usar o pacote da OpenAI
  • O que eu lembrava do BentoML é que originalmente parecia algo mais ligado a MLOps; lembro de ter usado há 1 ano. Fiquei curioso se a empresa mudou de foco
    • Como serving de LLM ocupa uma fatia grande do mercado, para um framework de serving é um movimento natural expandir para essa área
  • Referência boa demais, obrigado por organizar isso tão bem