- Resumir é uma das aplicações mais práticas dos LLMs, mas é preciso poder confiar que o resumo seja preciso
- Por questões de custo ou de acesso aos dados, há interesse em usar LLMs de código aberto como o Llama 2, mas sem muita confiança na precisão
- Por meio de experimentos, foi constatado que o Llama-2-70b é tão forte em factualidade quanto o GPT-4 e muito superior ao gpt-3.5-turbo
- Comparação entre Llama 2 7b/13b/70b e gpt-3.5/4 usando o Anyscale Endpoint
- Foram rotuladas 373 frases de reportagens, revisadas por três avaliadores, apresentando para cada uma uma resposta correta e uma incorreta
- Cada LLM teve que escolher qual afirmação era um resumo preciso baseado em fatos
- Dois problemas
- Modelos menores não seguem bem as instruções. Modelos maiores seguem melhor as orientações. Por isso, foi necessário usar outro LLM para interpretar a saída dos LLMs menores
- Viés de ordem. A escolha muda dependendo do que é apresentado primeiro. Por isso, também foi feita verificação com a ordem invertida
- Resultados
- Humanos: 84% (com base em pesquisa anterior)
- gpt-3.5-turbo: 67,0% de acerto (o problema de viés de ordem é grave)
- gpt-4: 85,5% de acerto
- Llama-2-7b: problema de viés de ordem extremamente grave. Fica abaixo da precisão aleatória
- Llama-2-13b: 58,9% de acerto
- Llama-2-70b: 81,7%
- Custo (para resumir 100 mil palavras)
- gpt-4: $5.48
- gpt-3.5-turbo: $0.25
- Llama-2-7b: $0.05
- Llama-2-13b: $0.09
- Llama-2-70b: $0.19
5 comentários
O custo do GPT-4 realmente é esmagador em comparação com os outros GPTs...
Escrevi sem pensar muito... acabei passando da cota mensal de US$ 120 e tive que pedir aumento.
No momento está realmente caro. Tomara que o preço caia logo para o nível do GPT-3.5 haha
Eu sempre uso o Universal Summarizer da Kagi para resumos.
Às vezes até acho mais prático do que o ChatGPT, e os tokens também são ilimitados...
Mas, como no coreano ele basicamente só traduz o resultado, a qualidade em coreano acaba ficando um pouco abaixo até do GPT 3.5.
Parece que os modelos de nível enterprise, disponíveis apenas no plano pago, são melhores, mas era algo como 1 dólar por resumo, então para uso pessoal acaba pesando.
Parece claro que, em LLMs, a funcionalidade de resumo é um fator importante na hora de escolher.
O problema é que... este experimento não avaliou um resumo feito por um LLM, e sim um resumo já feito.
Quando você usa na prática, o GPT-4 realmente tem um desempenho de resumo excelente. A tradução para o coreano também é um problema.
Fiquei tentado por causa do custo do GN⁺, mas por enquanto acho que ainda é melhor continuar usando o gpt-4.