3 pontos por GN⁺ 2023-09-13 | 1 comentários | Compartilhar no WhatsApp
  • Ao ajustar o Llama 2 7B no exemplo de classificação de receitas, ele alcançou no conjunto de teste um resultado com 95% de concordância com os rótulos do GPT-4
  • Fine-tuning é uma forma de treinar os pesos do modelo no modo de trabalho desejado por meio de exemplos de entrada/saída; pode funcionar com 50 exemplos, mas normalmente a meta é ter mais de 1.000
  • Prompts são vantajosos para iteração rápida e para operar um único modelo grande, mas o fine-tuning permite adaptar fortemente até modelos pequenos a tarefas específicas
  • O Llama 7B ajustado tem custo por token 50 vezes menor que o GPT-3.5, então em tarefas suficientemente estreitas a relação custo-desempenho pode melhorar bastante
  • O custo para classificar 2 milhões de receitas é de 23 mil dólares com GPT-4 e mais de 1.000 dólares com GPT-3.5, enquanto esse modelo ajustado processa todo o dataset por 19 dólares

Onde o fine-tuning difere de prompts

  • Com o aumento do interesse em fine-tuning de LLMs públicos no Hacker News, foi publicado um conjunto de notebooks para o exemplo de classificação de receitas
    • Os notebooks estão no exemplo da OpenPipe e cobrem rotulagem de dados, fine-tuning, execução eficiente de inferência e avaliação de custo/desempenho
  • O fine-tuning pode ser visto como uma forma de instrução mais forte que prompts
    • Em vez de colocar instruções em texto no prompt a cada vez, o modo de execução da tarefa é aprendido no próprio modelo por meio de pares de entrada/saída de exemplo
    • Pode funcionar com apenas 50 exemplos, mas a preferência é garantir mais de 1.000 sempre que possível
  • Prompts ainda têm muitas vantagens em operação e experimentação
    • É mais fácil e rápido iterar e melhorar instruções sem rotulagem nem novo treinamento
    • Do ponto de vista operacional, é mais simples implantar um único modelo grande e ajustar apenas o comportamento do que implantar vários modelos pequenos ajustados
    • Modelos pequenos ajustados individualmente podem acabar tendo baixa taxa de uso

Exemplos de custo e desempenho, e a OpenPipe

  • A maior vantagem do fine-tuning é permitir direcionar o comportamento do modelo com mais eficácia e, assim, usar modelos menores
    • Modelos menores podem aumentar a velocidade de resposta e reduzir o custo de inferência
    • O modelo Llama 7B ajustado tem custo por token 50 vezes menor que o GPT-3.5
  • O exemplo de classificação de receitas compara os custos usando os 2 milhões de receitas do dataset all-recipes
    • Classificar com GPT-4 custa 23 mil dólares
    • Mesmo com GPT-3.5, o custo fica em mais de 1.000 dólares
    • O modelo ajustado entrega desempenho semelhante ao GPT-4 e custa 19 dólares para rodar em todo o dataset
  • No conjunto de teste, o modelo 7B treinado teve 95% de concordância com os rótulos do GPT-4
    • Nos 5% de casos divergentes, muitas vezes a resposta correta era de fato ambígua
  • A OpenPipe é um produto open source que ajuda engenheiros a adotar fine-tuning com mais facilidade

1 comentários

 
GN⁺ 2023-09-13
Comentários do Hacker News
  • Artigo sobre o uso de ajuste fino de modelos Llama 2, como alternativa ao GPT-3.5/4
  • Alguns usuários descobriram que, para tarefas de tradução, o GPT-3.5 é 100 vezes mais barato que o Llama 2, e o Llama 7B oferece traduções ruins
  • Estratégia agressiva de preços da OpenAI para o GPT-3.5, especulada como uma forma de incentivar a dependência dos seus modelos em vez dos de outros fornecedores
  • Discussão sobre a possibilidade de usar a saída do GPT e de outros LLMs para treinar modelos substitutos internos, o que pode ser uma solução econômica para quem usa APIs regulares em escala de produção
  • Questionamentos sobre a alegação de que o modelo Llama 7B ajustado é 50 vezes mais barato que o GPT-3.5; alguns usuários sugerem que isso só pode ser alcançado com hospedagem própria
  • Questionamentos sobre a eficácia do ajuste fino em comparação com adaptação de baixo posto
  • Alguns usuários afirmam que a comparação entre o Llama ajustado e o GPT-3.5 é enganosa, citando problemas para alcançar latência de inferência adequada e escalabilidade
  • A qualidade do modelo Llama 2 ajustado não é necessariamente superior à do ChatGPT; o ajuste fino exige um conjunto de dados de alta qualidade, que não é fácil de construir
  • Questionamentos sobre a consistência e a taxa de erro do function calling do GPT
  • Usuários querem saber qual é o melhor LLM open source para ajustar seus próprios modelos
  • Pedido de esclarecimento sobre se o conjunto de dados de ajuste fino deve ser composto por pares de entrada/saída ou se pode ser autorregressivo
  • Usuários têm interesse em materiais para aprender a ajustar esses modelos, especialmente voltados para iniciantes
  • Este artigo é considerado um material valioso para quem está começando na área de ML/LLM.