19 pontos por xguru 2023-12-21 | 1 comentários | Compartilhar no WhatsApp
  • O interesse do público por modelos de linguagem de grande escala (LLMs) aumentou, e a discussão sobre código aberto e código fechado se expandiu

Receita para LLMs pré-treinados

  • Arquitetura do modelo: descreve implementações específicas e a forma matemática
  • Dataset de treinamento: inclui exemplos e documentos com os quais o modelo aprende
  • Tokenizador: define como o texto é convertido em números
  • Hiperparâmetros de treinamento: definem como o modelo é treinado
  • Necessidade de poder computacional e monitoramento por especialistas
  • Os pesos de um modelo pré-treinado são usados na inferência

2022, da competição por tamanho à competição por dados

  • Até o início de 2022, o tamanho do modelo era um fator importante para o desempenho
  • Lançamento de modelos como BLOOM, OPT e GLM-130B
  • Uma nova pesquisa da DeepMind destacou a importância do tamanho dos dados, levando a uma mudança de paradigma

2023, o ano dos lançamentos abertos

  • Ascensão dos LLMs menores: em fevereiro foi lançado o LLaMA (Meta), em abril o Pythia (Eleuther AI), em maio o MPT (MosaicML), em junho o X-GEN (Salesforce) e o Falcon (TIIUAE), e em julho o Llama 2 (Meta). Em setembro, foram lançados o Qwen (Alibaba) e o Mistral (Mistral.AI); em novembro, o Yi (01-ai); e em dezembro, o DeciLM (Deci), o Phi-2 (Microsoft) e o SOLAR (Upstage)
  • Incluem pesos de modelo e mostraram bom desempenho em modelos menores, o que levou a uma rápida adoção pela comunidade
  • As principais diferenças estão nos dados de treinamento e na licença do modelo

Surgimento dos modelos conversacionais

  • Em 2023, a maioria dos modelos pré-treinados foi lançada com versões conversacionais
  • Uso de métodos como fine-tuning baseado em chat, fine-tuning por instruções, aprendizado por reforço com feedback humano (RLHF) e DPO (Direct Preference Optimization)
  • Lançamento de versões conversacionais dos modelos MPT, Falcon, XGen, Llama-2, Qwen, Yi e DeciLM

O papel da comunidade

  • A comunidade e os pesquisadores aproveitaram os modelos-base fornecidos para desenvolver novos datasets e modelos ajustados finamente
  • Lançamento de diversos datasets e estratégias de fine-tuning
    • Human Preference: dataset WebGPT da OpenAI, dataset HH-RLHF (Anthropic) e Summarize (OpenAI)
    • Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
    • Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Democratização do acesso

  • Fusão de modelos/dados: combinação dos pesos dos modelos para integrar pontos fortes
  • PEFT: permite fine-tuning sem usar o modelo inteiro
  • Quantização: técnica para reduzir o tamanho do modelo e permitir que mais pessoas usem LLMs

O que vem a seguir?

  • Surgimento de novas arquiteturas que superem o Transformer e tragam melhor desempenho
  • Lançamento de novos modelos como Mixtral, Mamba e Striped Hyena

1 comentários

 
laeyoung 2023-12-22

Foi bom ver saírem muitos modelos open source bons. Teve o LLaMA, e também modelos open source disponibilizados para rodar até na Web, então baixei várias coisas e testei bastante. Mas, no fim, os únicos que realmente uso no dia a dia são o ChatGPT ou serviços SaaS de empresas que pegam o GPT-4 e oferecem em cima disso, o que é meio irônico. Modelo open source também é importante, mas no fim fico pensando se não é difícil sem uma infraestrutura que consiga rodar isso de forma estável e sem patrocinadores financeiros (?) que também consigam sustentar isso de forma estável.