1 pontos por GN⁺ 2024-07-02 | 1 comentários | Compartilhar no WhatsApp

TL;DR

  • Resumo principal: O modelo ajustado com fine-tuning foi mais preciso que o modelo da OpenAI, mas a implementação da avaliação foi difícil.
  • Pontos principais: Durante o processo de fine-tuning, muito código ficou oculto e a execução foi lenta. Sem um sistema, a complexidade de manutenção aumentaria.

Carregamento do dataset

  • Dataset: Uso de um dataset de teste de um repositório público no Hugging Face Hub.
  • Estrutura do dataset: name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq etc.

Adição de previsões

  • Adição de previsões: Os resultados de previsão foram adicionados a cada linha do dataset e isso foi feito de forma iterativa para evitar etapas computacionalmente intensivas.
  • Uso de objetos Pydantic: Os dados foram estruturados com objetos Pydantic para lidar com validação de dados e recursos de controle de qualidade.

Teste de validade de JSON

  • Resultados de previsão: O modelo foi configurado para gerar uma string JSON como saída.
  • Uso de modelos GPT: As previsões foram realizadas usando os modelos GPT-4o e GPT-4 Turbo.
  • Problema: Como os modelos GPT não foram treinados com o mesmo prompt, foi difícil fazer uma comparação precisa.

Previsão assíncrona

  • Processamento assíncrono: As previsões foram executadas de forma assíncrona para processar muitos eventos.
  • Lógica de retry: Foi adicionada uma lógica de retry considerando os limites de taxa do modelo GPT-3.5-turbo.

Conversão e envio do dataset

  • Conversão do dataset: Os resultados de previsão foram adicionados ao dataset e enviados para o Hugging Face Hub.
  • Uso de funções: Foram usadas funções para repetir o processo de conversão e envio.

Adição de previsões do modelo fine-tuned

  • Modelo local: Foram adicionados ao dataset os resultados de previsão de um modelo treinado localmente.
  • Modelo da OpenAI: Também foram adicionados os resultados de previsão de um modelo treinado com o serviço de fine-tuning com um clique da OpenAI.
  • Modelos diversos: Também foram adicionados resultados de vários modelos, como Mistral, Llama3 e Solar LLM.

Avaliação final

  • Métricas de avaliação: Foram usadas várias métricas de avaliação, como teste de validade de JSON, precisão da data inicial, precisão por estado/província, precisão do grupo-alvo e precisão do tipo de evento.
  • Resultado final: O modelo fine-tuned apresentou maior precisão do que o modelo da OpenAI.

Opinião do GN⁺

  1. Importância do fine-tuning: O fato de o modelo ajustado com fine-tuning ter mostrado maior precisão do que o modelo base da OpenAI reforça a importância de modelos adaptados para tarefas específicas.
  2. Complexidade da avaliação: A dificuldade de implementar a avaliação evidencia a necessidade de uma abordagem mais sistêmica.
  3. Uso de vários modelos: É interessante que a comparação tenha sido feita com vários modelos diferentes. Isso ajuda a entender com clareza os pontos fortes e fracos de cada um.
  4. Uso de open source: Foi útil ver o uso de plataformas open source como o Hugging Face Hub para gerenciar e compartilhar datasets.
  5. Necessidade de processamento assíncrono: O texto mostra que a abordagem assíncrona é eficiente ao lidar com grandes volumes de dados.

1 comentários

 
GN⁺ 2024-07-02
Comentários do Hacker News
  • Fundador da OpenPipe: extração de dados é uma área em que modelos ajustados por fine-tuning se destacam. Segundo a pesquisa da OpenPipe, o modelo Llama 3 8B superou o GPT-4 em várias tarefas. O ponto importante é como gerar dados de treinamento de alta qualidade
  • Modelos pequenos e especializados apresentam melhor desempenho em extração de informações e classificação de texto. Gostaria de ver pesquisas que incluam o desempenho de modelos pequenos
  • Sistemas subdeterminados têm infinitas soluções. É possível superar benchmarks SOTA usando modelos de IA open source. Com a tecnologia atual, não é possível criar sistemas inteligentes, e um novo avanço é necessário
  • Extração e estruturação de dados são a única aplicação realmente séria dos LLMs útil em trabalhos reais. Modelos pequenos são mais rápidos e baratos, além de adequados para trabalho offline. É possível fazer mais experimentos e fine-tuning específico
  • Esse é exatamente o objetivo de modelos ajustados por fine-tuning. É bom ver um processo de fine-tuning que mistura opções hospedadas e locais
  • Gostaria de ver exemplos em que o GPT-4 foi impreciso e em que o melhor modelo foi preciso. Também seria bom tentar novamente com temperatura 0. Temperatura 0 pode fazer uma grande diferença na extração de dados estruturados
  • Escrevi um artigo sobre um tema semelhante: link para o artigo
  • Fiz mais de 700 experimentos de fine-tuning no Predibase e comparei com o GPT-4. Em 85% dos casos, superou o GPT-4. Os resultados podem ser vistos aqui
  • Todos os modelos deveriam ser open source tanto quanto possível. Open source geralmente é melhor para liberdade e qualidade
  • O conteúdo potencialmente controverso da notícia-alvo pode afetar a capacidade de resumo do ChatGPT