Llama 2 é tão preciso quanto o GPT-4 em resumos e 30 vezes mais barato

xguru · 2023-08-30T11:08:02+09:00

Resumir é uma das aplicações mais práticas dos LLMs, mas é preciso poder confiar que o resumo seja preciso Por questões de custo ou de acesso aos dados, há interesse em usar LLMs de código aberto como o Llama 2, mas sem muita confiança na precisão Por meio de experimentos, foi constatado que o Llama-2-70b é tão forte em factualidade quanto o GPT-4 e muito superior ao gpt-3.5-turbo Comparação entre Llama 2 7b/13b/70b e gpt-3.5/4 usando o Anyscale Endpoint Foram rotuladas 373 frases de reportagens, revisadas por três avaliadores, apresentando para cada uma uma resposta correta e uma incorreta Cada LLM teve que escolher qual afirmação era um resumo preciso baseado em fatos Dois problemas Modelos menores não seguem bem as instruções. Modelos maiores seguem melhor as orientações. Por isso, foi necessário usar outro LLM para interpretar a saída dos LLMs menores Viés de ordem. A escolha muda dependendo do que é apresentado primeiro. Por isso, também foi feita verificação com a ordem invertida Resultados Humanos: 84% (com base em pesquisa anterior) gpt-3.5-turbo: 67,0% de acerto (o problema de viés de ordem é grave) gpt-4: 85,5% de acerto Llama-2-7b: problema de viés de ordem extremamente grave. Fica abaixo da precisão aleatória Llama-2-13b: 58,9% de acerto Llama-2-70b: 81,7% Custo (para resumir 100 mil palavras) gpt-4: $5.48 gpt-3.5-turbo: $0.25 Llama-2-7b: $0.05 Llama-2-13b: $0.09 Llama-2-70b: $0.19

(anyscale.com)

12 pontos por xguru 2023-08-30 | 5 comentários | Compartilhar no WhatsApp

Resumir é uma das aplicações mais práticas dos LLMs, mas é preciso poder confiar que o resumo seja preciso
Por questões de custo ou de acesso aos dados, há interesse em usar LLMs de código aberto como o Llama 2, mas sem muita confiança na precisão
Por meio de experimentos, foi constatado que o Llama-2-70b é tão forte em factualidade quanto o GPT-4 e muito superior ao gpt-3.5-turbo
Comparação entre Llama 2 7b/13b/70b e gpt-3.5/4 usando o Anyscale Endpoint
- Foram rotuladas 373 frases de reportagens, revisadas por três avaliadores, apresentando para cada uma uma resposta correta e uma incorreta
- Cada LLM teve que escolher qual afirmação era um resumo preciso baseado em fatos
Dois problemas
- Modelos menores não seguem bem as instruções. Modelos maiores seguem melhor as orientações. Por isso, foi necessário usar outro LLM para interpretar a saída dos LLMs menores
- Viés de ordem. A escolha muda dependendo do que é apresentado primeiro. Por isso, também foi feita verificação com a ordem invertida
Resultados
- Humanos: 84% (com base em pesquisa anterior)
- gpt-3.5-turbo: 67,0% de acerto (o problema de viés de ordem é grave)
- gpt-4: 85,5% de acerto
- Llama-2-7b: problema de viés de ordem extremamente grave. Fica abaixo da precisão aleatória
- Llama-2-13b: 58,9% de acerto
- Llama-2-70b: 81,7%
Custo (para resumir 100 mil palavras)
- gpt-4: $5.48
- gpt-3.5-turbo: $0.25
- Llama-2-7b: $0.05
- Llama-2-13b: $0.09
- Llama-2-70b: $0.19

5 comentários

mhj5730 2023-08-30

O custo do GPT-4 realmente é esmagador em comparação com os outros GPTs...

xguru 2023-08-30

Escrevi sem pensar muito... acabei passando da cota mensal de US$ 120 e tive que pedir aumento.
No momento está realmente caro. Tomara que o preço caia logo para o nível do GPT-3.5 haha

kuroneko 2023-08-30

Eu sempre uso o Universal Summarizer da Kagi para resumos.
Às vezes até acho mais prático do que o ChatGPT, e os tokens também são ilimitados...

Mas, como no coreano ele basicamente só traduz o resultado, a qualidade em coreano acaba ficando um pouco abaixo até do GPT 3.5.
Parece que os modelos de nível enterprise, disponíveis apenas no plano pago, são melhores, mas era algo como 1 dólar por resumo, então para uso pessoal acaba pesando.

ragingwind 2023-08-30

Parece claro que, em LLMs, a funcionalidade de resumo é um fator importante na hora de escolher.

xguru 2023-08-30

O problema é que... este experimento não avaliou um resumo feito por um LLM, e sim um resumo já feito.
Quando você usa na prática, o GPT-4 realmente tem um desempenho de resumo excelente. A tradução para o coreano também é um problema.
Fiquei tentado por causa do custo do GN⁺, mas por enquanto acho que ainda é melhor continuar usando o gpt-4.

Llama 2 é tão preciso quanto o GPT-4 em resumos e 30 vezes mais barato

Leituras relacionadas

5 comentários