TL;DR
- Resumo principal: O modelo ajustado com fine-tuning foi mais preciso que o modelo da OpenAI, mas a implementação da avaliação foi difícil.
- Pontos principais: Durante o processo de fine-tuning, muito código ficou oculto e a execução foi lenta. Sem um sistema, a complexidade de manutenção aumentaria.
Carregamento do dataset
- Dataset: Uso de um dataset de teste de um repositório público no Hugging Face Hub.
- Estrutura do dataset:
name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq etc.
Adição de previsões
- Adição de previsões: Os resultados de previsão foram adicionados a cada linha do dataset e isso foi feito de forma iterativa para evitar etapas computacionalmente intensivas.
- Uso de objetos Pydantic: Os dados foram estruturados com objetos Pydantic para lidar com validação de dados e recursos de controle de qualidade.
Teste de validade de JSON
- Resultados de previsão: O modelo foi configurado para gerar uma string JSON como saída.
- Uso de modelos GPT: As previsões foram realizadas usando os modelos GPT-4o e GPT-4 Turbo.
- Problema: Como os modelos GPT não foram treinados com o mesmo prompt, foi difícil fazer uma comparação precisa.
Previsão assíncrona
- Processamento assíncrono: As previsões foram executadas de forma assíncrona para processar muitos eventos.
- Lógica de retry: Foi adicionada uma lógica de retry considerando os limites de taxa do modelo GPT-3.5-turbo.
Conversão e envio do dataset
- Conversão do dataset: Os resultados de previsão foram adicionados ao dataset e enviados para o Hugging Face Hub.
- Uso de funções: Foram usadas funções para repetir o processo de conversão e envio.
Adição de previsões do modelo fine-tuned
- Modelo local: Foram adicionados ao dataset os resultados de previsão de um modelo treinado localmente.
- Modelo da OpenAI: Também foram adicionados os resultados de previsão de um modelo treinado com o serviço de fine-tuning com um clique da OpenAI.
- Modelos diversos: Também foram adicionados resultados de vários modelos, como Mistral, Llama3 e Solar LLM.
Avaliação final
- Métricas de avaliação: Foram usadas várias métricas de avaliação, como teste de validade de JSON, precisão da data inicial, precisão por estado/província, precisão do grupo-alvo e precisão do tipo de evento.
- Resultado final: O modelo fine-tuned apresentou maior precisão do que o modelo da OpenAI.
Opinião do GN⁺
- Importância do fine-tuning: O fato de o modelo ajustado com fine-tuning ter mostrado maior precisão do que o modelo base da OpenAI reforça a importância de modelos adaptados para tarefas específicas.
- Complexidade da avaliação: A dificuldade de implementar a avaliação evidencia a necessidade de uma abordagem mais sistêmica.
- Uso de vários modelos: É interessante que a comparação tenha sido feita com vários modelos diferentes. Isso ajuda a entender com clareza os pontos fortes e fracos de cada um.
- Uso de open source: Foi útil ver o uso de plataformas open source como o Hugging Face Hub para gerenciar e compartilhar datasets.
- Necessidade de processamento assíncrono: O texto mostra que a abordagem assíncrona é eficiente ao lidar com grandes volumes de dados.
1 comentários
Comentários do Hacker News