42 pontos por kuroneko 2023-05-18 | 2 comentários | Compartilhar no WhatsApp
  • Um resumo dos números importantes ao usar LLMs.
  • Colocar "seja conciso" no prompt pode economizar de 40% a 90% em custos.
  • Em comparação com o GPT-4, o GPT-3.5 Turbo é 50 vezes mais barato.
  • Usar embeddings da OpenAI para busca vetorial é 20 vezes mais barato do que usar o GPT-3.5 Turbo.
  • Treinar um LLM da classe do LLaMa custa um milhão de dólares.
  • Tamanho de memória por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • Normalmente é preciso o dobro de memória do tamanho do modelo - 7B = 14GB
  • Modelos de embedding normalmente usam menos de 1GB de memória
  • Processar requisições de LLM em lote pode deixá-las mais de 10 vezes mais rápidas.
  • Um modelo 13B precisa de cerca de 1MB por token, então processar requisições em lote aumenta bastante a exigência de memória.

2 comentários

 
xguru 2023-05-18

Tentei bastante fazer mais curto, mas acho que também vou experimentar colocar esse "be concise" de que o texto fala.

 
wedding 2023-05-20

Parece que também vai ser preciso tentar combinar com let's think step by step.