Substituindo o GPT-3.5/4 por um Llama 2 ajustado manualmente

(news.ycombinator.com)

3 pontos por GN⁺ 2023-09-13 | 1 comentários | Compartilhar no WhatsApp

Ao ajustar o Llama 2 7B no exemplo de classificação de receitas, ele alcançou no conjunto de teste um resultado com 95% de concordância com os rótulos do GPT-4
Fine-tuning é uma forma de treinar os pesos do modelo no modo de trabalho desejado por meio de exemplos de entrada/saída; pode funcionar com 50 exemplos, mas normalmente a meta é ter mais de 1.000
Prompts são vantajosos para iteração rápida e para operar um único modelo grande, mas o fine-tuning permite adaptar fortemente até modelos pequenos a tarefas específicas
O Llama 7B ajustado tem custo por token 50 vezes menor que o GPT-3.5, então em tarefas suficientemente estreitas a relação custo-desempenho pode melhorar bastante
O custo para classificar 2 milhões de receitas é de 23 mil dólares com GPT-4 e mais de 1.000 dólares com GPT-3.5, enquanto esse modelo ajustado processa todo o dataset por 19 dólares

Onde o fine-tuning difere de prompts

Com o aumento do interesse em fine-tuning de LLMs públicos no Hacker News, foi publicado um conjunto de notebooks para o exemplo de classificação de receitas
- Os notebooks estão no exemplo da OpenPipe e cobrem rotulagem de dados, fine-tuning, execução eficiente de inferência e avaliação de custo/desempenho
O fine-tuning pode ser visto como uma forma de instrução mais forte que prompts
- Em vez de colocar instruções em texto no prompt a cada vez, o modo de execução da tarefa é aprendido no próprio modelo por meio de pares de entrada/saída de exemplo
- Pode funcionar com apenas 50 exemplos, mas a preferência é garantir mais de 1.000 sempre que possível
Prompts ainda têm muitas vantagens em operação e experimentação
- É mais fácil e rápido iterar e melhorar instruções sem rotulagem nem novo treinamento
- Do ponto de vista operacional, é mais simples implantar um único modelo grande e ajustar apenas o comportamento do que implantar vários modelos pequenos ajustados
- Modelos pequenos ajustados individualmente podem acabar tendo baixa taxa de uso

Exemplos de custo e desempenho, e a OpenPipe

A maior vantagem do fine-tuning é permitir direcionar o comportamento do modelo com mais eficácia e, assim, usar modelos menores
- Modelos menores podem aumentar a velocidade de resposta e reduzir o custo de inferência
- O modelo Llama 7B ajustado tem custo por token 50 vezes menor que o GPT-3.5
O exemplo de classificação de receitas compara os custos usando os 2 milhões de receitas do dataset all-recipes
- Classificar com GPT-4 custa 23 mil dólares
- Mesmo com GPT-3.5, o custo fica em mais de 1.000 dólares
- O modelo ajustado entrega desempenho semelhante ao GPT-4 e custa 19 dólares para rodar em todo o dataset
No conjunto de teste, o modelo 7B treinado teve 95% de concordância com os rótulos do GPT-4
- Nos 5% de casos divergentes, muitas vezes a resposta correta era de fato ambígua
A OpenPipe é um produto open source que ajuda engenheiros a adotar fine-tuning com mais facilidade
- O projeto está disponível no repositório GitHub da OpenPipe
- As informações de fine-tuning fornecidas não dependem do produto OpenPipe em si

1 comentários

GN⁺ 2023-09-13

Comentários do Hacker News

Artigo sobre o uso de ajuste fino de modelos Llama 2, como alternativa ao GPT-3.5/4
Alguns usuários descobriram que, para tarefas de tradução, o GPT-3.5 é 100 vezes mais barato que o Llama 2, e o Llama 7B oferece traduções ruins
Estratégia agressiva de preços da OpenAI para o GPT-3.5, especulada como uma forma de incentivar a dependência dos seus modelos em vez dos de outros fornecedores
Discussão sobre a possibilidade de usar a saída do GPT e de outros LLMs para treinar modelos substitutos internos, o que pode ser uma solução econômica para quem usa APIs regulares em escala de produção
Questionamentos sobre a alegação de que o modelo Llama 7B ajustado é 50 vezes mais barato que o GPT-3.5; alguns usuários sugerem que isso só pode ser alcançado com hospedagem própria
Questionamentos sobre a eficácia do ajuste fino em comparação com adaptação de baixo posto
Alguns usuários afirmam que a comparação entre o Llama ajustado e o GPT-3.5 é enganosa, citando problemas para alcançar latência de inferência adequada e escalabilidade
A qualidade do modelo Llama 2 ajustado não é necessariamente superior à do ChatGPT; o ajuste fino exige um conjunto de dados de alta qualidade, que não é fácil de construir
Questionamentos sobre a consistência e a taxa de erro do function calling do GPT
Usuários querem saber qual é o melhor LLM open source para ajustar seus próprios modelos
Pedido de esclarecimento sobre se o conjunto de dados de ajuste fino deve ser composto por pares de entrada/saída ou se pode ser autorregressivo
Usuários têm interesse em materiais para aprender a ajustar esses modelos, especialmente voltados para iniciantes
Este artigo é considerado um material valioso para quem está começando na área de ML/LLM.

Substituindo o GPT-3.5/4 por um Llama 2 ajustado manualmente

Onde o fine-tuning difere de prompts

Exemplos de custo e desempenho, e a OpenPipe

Leituras relacionadas

1 comentários

Comentários do Hacker News