- O interesse do público por modelos de linguagem de grande escala (LLMs) aumentou, e a discussão sobre código aberto e código fechado se expandiu
Receita para LLMs pré-treinados
- Arquitetura do modelo: descreve implementações específicas e a forma matemática
- Dataset de treinamento: inclui exemplos e documentos com os quais o modelo aprende
- Tokenizador: define como o texto é convertido em números
- Hiperparâmetros de treinamento: definem como o modelo é treinado
- Necessidade de poder computacional e monitoramento por especialistas
- Os pesos de um modelo pré-treinado são usados na inferência
2022, da competição por tamanho à competição por dados
- Até o início de 2022, o tamanho do modelo era um fator importante para o desempenho
- Lançamento de modelos como BLOOM, OPT e GLM-130B
- Uma nova pesquisa da DeepMind destacou a importância do tamanho dos dados, levando a uma mudança de paradigma
2023, o ano dos lançamentos abertos
- Ascensão dos LLMs menores: em fevereiro foi lançado o LLaMA (Meta), em abril o Pythia (Eleuther AI), em maio o MPT (MosaicML), em junho o X-GEN (Salesforce) e o Falcon (TIIUAE), e em julho o Llama 2 (Meta). Em setembro, foram lançados o Qwen (Alibaba) e o Mistral (Mistral.AI); em novembro, o Yi (01-ai); e em dezembro, o DeciLM (Deci), o Phi-2 (Microsoft) e o SOLAR (Upstage)
- Incluem pesos de modelo e mostraram bom desempenho em modelos menores, o que levou a uma rápida adoção pela comunidade
- As principais diferenças estão nos dados de treinamento e na licença do modelo
Surgimento dos modelos conversacionais
- Em 2023, a maioria dos modelos pré-treinados foi lançada com versões conversacionais
- Uso de métodos como fine-tuning baseado em chat, fine-tuning por instruções, aprendizado por reforço com feedback humano (RLHF) e DPO (Direct Preference Optimization)
- Lançamento de versões conversacionais dos modelos MPT, Falcon, XGen, Llama-2, Qwen, Yi e DeciLM
O papel da comunidade
- A comunidade e os pesquisadores aproveitaram os modelos-base fornecidos para desenvolver novos datasets e modelos ajustados finamente
- Lançamento de diversos datasets e estratégias de fine-tuning
- Human Preference: dataset WebGPT da OpenAI, dataset HH-RLHF (Anthropic) e Summarize (OpenAI)
- Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..
Democratização do acesso
- Fusão de modelos/dados: combinação dos pesos dos modelos para integrar pontos fortes
- PEFT: permite fine-tuning sem usar o modelo inteiro
- Quantização: técnica para reduzir o tamanho do modelo e permitir que mais pessoas usem LLMs
O que vem a seguir?
- Surgimento de novas arquiteturas que superem o Transformer e tragam melhor desempenho
- Lançamento de novos modelos como Mixtral, Mamba e Striped Hyena
1 comentários
Foi bom ver saírem muitos modelos open source bons. Teve o LLaMA, e também modelos open source disponibilizados para rodar até na Web, então baixei várias coisas e testei bastante. Mas, no fim, os únicos que realmente uso no dia a dia são o ChatGPT ou serviços SaaS de empresas que pegam o GPT-4 e oferecem em cima disso, o que é meio irônico. Modelo open source também é importante, mas no fim fico pensando se não é difícil sem uma infraestrutura que consiga rodar isso de forma estável e sem patrocinadores financeiros (?) que também consigam sustentar isso de forma estável.