2 pontos por GN⁺ 2023-09-07 | 1 comentários | Compartilhar no WhatsApp
  • O texto discute um padrão de aprendizado incomum observado no processo de ajuste fino de grandes modelos de linguagem (Large Language Models, LLMs), no qual esses modelos parecem aprender de forma eficaz a partir de um único exemplo.
  • Essa observação contrasta com o entendimento geral sobre a eficiência amostral de redes neurais, segundo o qual normalmente são necessários vários exemplos para um aprendizado eficaz.
  • Para verificar esse fenômeno, os autores realizaram uma série de experimentos, que sustentam a hipótese de que os LLMs conseguem memorizar entradas rapidamente.
  • O processo de aprendizado de redes neurais envolve mostrar exemplos de entrada e saída e treiná-las para prever a saída com base na entrada. Esse processo é repetido várias vezes (épocas) para que o modelo aprenda de forma eficaz.
  • Enquanto treinavam um modelo para uma competição do Kaggle, os autores observaram uma queda acentuada na perda ao final de cada época, algo incomum e inicialmente suspeito de ser um bug.
  • Os autores e outros desenvolvedores da comunidade encontraram padrões semelhantes mesmo usando diferentes loops e métodos de treinamento, o que sugere que não se trata de um bug, mas de uma característica do ajuste fino de LLMs.
  • A hipótese é que essas curvas de treinamento estejam mostrando sobreajuste, indicando que o modelo está aprendendo a reconhecer a entrada a partir de apenas um ou dois exemplos.
  • Os autores realizaram experimentos usando diferentes cronogramas de taxa de aprendizado e observaram que o modelo aprende rapidamente a reconhecer exemplos mesmo vendo-os apenas uma vez.
  • Os autores sugerem que grandes modelos de linguagem pré-treinados podem ter uma superfície de perda muito suave em regiões próximas da perda mínima, o que lhes permitiria aprender rapidamente a partir de um único exemplo.
  • Esse aprendizado rápido pode desafiar métodos tradicionais de treinamento e agravar o problema do esquecimento catastrófico, no qual o modelo esquece informações aprendidas anteriormente quando novas informações são introduzidas.
  • Os autores propõem possíveis estratégias de mitigação, como aumentar o uso de técnicas como dropout ou profundidade estocástica, ou usar misturas de diferentes conjuntos de dados durante o treinamento.
  • Os autores propõem mais pesquisas e hipóteses alternativas para entender melhor esse fenômeno e suas implicações para o treinamento e o uso de LLMs.

1 comentários

 
GN⁺ 2023-09-07
Comentários do Hacker News
  • Discussão sobre o artigo a respeito da surpreendente capacidade dos Large Language Models (LLMs) de memorizar rapidamente a partir de um único exemplo
  • Um dos autores do post descobriu que esse comportamento foi o mais surpreendente em 30 anos trabalhando com redes neurais
  • Alguns leitores argumentam que o termo "excesso de confiança" usado no artigo é enganoso, e que "sobreajuste" ou "indeterminado" seriam mais precisos
  • Considerando os bilhões de parâmetros em modelos generativos, o fenômeno de LLMs aprenderem rapidamente com um único exemplo não é surpreendente de uma perspectiva tradicional de Machine Learning (ML)
  • Discussão sobre as implicações de a maioria dos LLMs ser treinada com apenas uma epoch, levantando a questão do sobreajuste
  • Um usuário compartilha uma experiência pessoal com o ChatGPT, destacando que fornecer material para perguntas para as quais o LLM não foi treinado ajudou a resolver o problema
  • Alguns leitores questionam se LLMs foram usados para reforçar seus próprios dados de treinamento, propondo a ideia de adicionar entradas "sonhadas" ou sintéticas aos dados de treinamento
  • Debate sobre o título do artigo: alguns leitores acreditam que aprender com um único exemplo é desejável, mas memorizar não é, e por isso consideram o título enganoso
  • Alguns usuários compartilham experiências com curvas de perda semelhantes ao treinar Vision Transformers (ViTs), sugerindo que essas curvas de perda estranhas podem ser uma característica de modelos baseados em Transformer
  • Recomendações de outros trabalhos relacionados para quem se interessa pelo tema, como "Mass-Editing Memory in a Transformer" e "Locating and Editing Factual Associations in GPT"
  • Se as descobertas do artigo forem verdadeiras, isso pode apoiar a ideia de que conjuntos de dados pequenos e curados por humanos podem ser mais valiosos do que conjuntos de dados sintéticos gerados por LLMs