- Um resumo dos números importantes ao usar LLMs.
- Colocar "seja conciso" no prompt pode economizar de 40% a 90% em custos.
- Em comparação com o GPT-4, o GPT-3.5 Turbo é 50 vezes mais barato.
- Usar embeddings da OpenAI para busca vetorial é 20 vezes mais barato do que usar o GPT-3.5 Turbo.
- Treinar um LLM da classe do LLaMa custa um milhão de dólares.
- Tamanho de memória por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- Normalmente é preciso o dobro de memória do tamanho do modelo - 7B = 14GB
- Modelos de embedding normalmente usam menos de 1GB de memória
- Processar requisições de LLM em lote pode deixá-las mais de 10 vezes mais rápidas.
- Um modelo 13B precisa de cerca de 1MB por token, então processar requisições em lote aumenta bastante a exigência de memória.
2 comentários
Tentei bastante fazer mais curto, mas acho que também vou experimentar colocar esse "be concise" de que o texto fala.
Parece que também vai ser preciso tentar combinar com
let's think step by step.