Substituindo o GPT-3.5/4 por um Llama 2 ajustado manualmente
(news.ycombinator.com)- Ao ajustar o Llama 2 7B no exemplo de classificação de receitas, ele alcançou no conjunto de teste um resultado com 95% de concordância com os rótulos do GPT-4
- Fine-tuning é uma forma de treinar os pesos do modelo no modo de trabalho desejado por meio de exemplos de entrada/saída; pode funcionar com 50 exemplos, mas normalmente a meta é ter mais de 1.000
- Prompts são vantajosos para iteração rápida e para operar um único modelo grande, mas o fine-tuning permite adaptar fortemente até modelos pequenos a tarefas específicas
- O Llama 7B ajustado tem custo por token 50 vezes menor que o GPT-3.5, então em tarefas suficientemente estreitas a relação custo-desempenho pode melhorar bastante
- O custo para classificar 2 milhões de receitas é de 23 mil dólares com GPT-4 e mais de 1.000 dólares com GPT-3.5, enquanto esse modelo ajustado processa todo o dataset por 19 dólares
Onde o fine-tuning difere de prompts
- Com o aumento do interesse em fine-tuning de LLMs públicos no Hacker News, foi publicado um conjunto de notebooks para o exemplo de classificação de receitas
- Os notebooks estão no exemplo da OpenPipe e cobrem rotulagem de dados, fine-tuning, execução eficiente de inferência e avaliação de custo/desempenho
- O fine-tuning pode ser visto como uma forma de instrução mais forte que prompts
- Em vez de colocar instruções em texto no prompt a cada vez, o modo de execução da tarefa é aprendido no próprio modelo por meio de pares de entrada/saída de exemplo
- Pode funcionar com apenas 50 exemplos, mas a preferência é garantir mais de 1.000 sempre que possível
- Prompts ainda têm muitas vantagens em operação e experimentação
- É mais fácil e rápido iterar e melhorar instruções sem rotulagem nem novo treinamento
- Do ponto de vista operacional, é mais simples implantar um único modelo grande e ajustar apenas o comportamento do que implantar vários modelos pequenos ajustados
- Modelos pequenos ajustados individualmente podem acabar tendo baixa taxa de uso
Exemplos de custo e desempenho, e a OpenPipe
- A maior vantagem do fine-tuning é permitir direcionar o comportamento do modelo com mais eficácia e, assim, usar modelos menores
- Modelos menores podem aumentar a velocidade de resposta e reduzir o custo de inferência
- O modelo Llama 7B ajustado tem custo por token 50 vezes menor que o GPT-3.5
- O exemplo de classificação de receitas compara os custos usando os 2 milhões de receitas do dataset all-recipes
- Classificar com GPT-4 custa 23 mil dólares
- Mesmo com GPT-3.5, o custo fica em mais de 1.000 dólares
- O modelo ajustado entrega desempenho semelhante ao GPT-4 e custa 19 dólares para rodar em todo o dataset
- No conjunto de teste, o modelo 7B treinado teve 95% de concordância com os rótulos do GPT-4
- Nos 5% de casos divergentes, muitas vezes a resposta correta era de fato ambígua
- A OpenPipe é um produto open source que ajuda engenheiros a adotar fine-tuning com mais facilidade
- O projeto está disponível no repositório GitHub da OpenPipe
- As informações de fine-tuning fornecidas não dependem do produto OpenPipe em si
1 comentários
Comentários do Hacker News