Números que todo desenvolvedor de LLM deveria conhecer

kuroneko · 2023-05-18T10:45:09+09:00

Um resumo dos números importantes ao usar LLMs. Colocar "seja conciso" no prompt pode economizar de 40% a 90% em custos. Em comparação com o GPT-4, o GPT-3.5 Turbo é 50 vezes mais barato. Usar embeddings da OpenAI para busca vetorial é 20 vezes mais barato do que usar o GPT-3.5 Turbo. Treinar um LLM da classe do LLaMa custa um milhão de dólares. Tamanho de memória por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB Normalmente é preciso o dobro de memória do tamanho do modelo - 7B = 14GB Modelos de embedding normalmente usam menos de 1GB de memória Processar requisições de LLM em lote pode deixá-las mais de 10 vezes mais rápidas. Um modelo 13B precisa de cerca de 1MB por token, então processar requisições em lote aumenta bastante a exigência de memória.

(github.com/ray-project)

42 pontos por kuroneko 2023-05-18 | 2 comentários | Compartilhar no WhatsApp

Um resumo dos números importantes ao usar LLMs.
Colocar "seja conciso" no prompt pode economizar de 40% a 90% em custos.
Em comparação com o GPT-4, o GPT-3.5 Turbo é 50 vezes mais barato.
Usar embeddings da OpenAI para busca vetorial é 20 vezes mais barato do que usar o GPT-3.5 Turbo.
Treinar um LLM da classe do LLaMa custa um milhão de dólares.
Tamanho de memória por GPU - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
Normalmente é preciso o dobro de memória do tamanho do modelo - 7B = 14GB
Modelos de embedding normalmente usam menos de 1GB de memória
Processar requisições de LLM em lote pode deixá-las mais de 10 vezes mais rápidas.
Um modelo 13B precisa de cerca de 1MB por token, então processar requisições em lote aumenta bastante a exigência de memória.

2 comentários

xguru 2023-05-18

Tentei bastante fazer mais curto, mas acho que também vou experimentar colocar esse "be concise" de que o texto fala.

wedding 2023-05-20

Parece que também vai ser preciso tentar combinar com let's think step by step.

Números que todo desenvolvedor de LLM deveria conhecer

Leituras relacionadas

2 comentários