2023 foi o ano dos LLMs abertos

xguru · 2023-12-21T10:33:04+09:00

O interesse do público por modelos de linguagem de grande escala (LLMs) aumentou, e a discussão sobre código aberto e código fechado se expandiu Receita para LLMs pré-treinados Arquitetura do modelo: descreve implementações específicas e a forma matemática Dataset de treinamento: inclui exemplos e documentos com os quais o modelo aprende Tokenizador: define como o texto é convertido em números Hiperparâmetros de treinamento: definem como o modelo é treinado Necessidade de poder computacional e monitoramento por especialistas Os pesos de um modelo pré-treinado são usados na inferência 2022, da competição por tamanho à competição por dados Até o início de 2022, o tamanho do modelo era um fator importante para o desempenho Lançamento de modelos como BLOOM, OPT e GLM-130B Uma nova pesquisa da DeepMind destacou a importância do tamanho dos dados, levando a uma mudança de paradigma 2023, o ano dos lançamentos abertos Ascensão dos LLMs menores: em fevereiro foi lançado o LLaMA (Meta), em abril o Pythia (Eleuther AI), em maio o MPT (MosaicML), em junho o X-GEN (Salesforce) e o Falcon (TIIUAE), e em julho o Llama 2 (Meta). Em setembro, foram lançados o Qwen (Alibaba) e o Mistral (Mistral.AI); em novembro, o Yi (01-ai); e em dezembro, o DeciLM (Deci), o Phi-2 (Microsoft) e o SOLAR (Upstage) Incluem pesos de modelo e mostraram bom desempenho em modelos menores, o que levou a uma rápida adoção pela comunidade As principais diferenças estão nos dados de treinamento e na licença do modelo Surgimento dos modelos conversacionais Em 2023, a maioria dos modelos pré-treinados foi lançada com versões conversacionais Uso de métodos como fine-tuning baseado em chat, fine-tuning por instruções, aprendizado por reforço com feedback humano (RLHF) e DPO (Direct Preference Optimization) Lançamento de versões conversacionais dos modelos MPT, Falcon, XGen, Llama-2, Qwen, Yi e DeciLM O papel da comunidade A comunidade e os pesquisadores aproveitaram os modelos-base fornecidos para desenvolver novos datasets e modelos ajustados finamente Lançamento de diversos datasets e estratégias de fine-tuning Human Preference: dataset WebGPT da OpenAI, dataset HH-RLHF (Anthropic) e Summarize (OpenAI) Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. Democratização do acesso Fusão de modelos/dados: combinação dos pesos dos modelos para integrar pontos fortes PEFT: permite fine-tuning sem usar o modelo inteiro Quantização: técnica para reduzir o tamanho do modelo e permitir que mais pessoas usem LLMs O que vem a seguir? Surgimento de novas arquiteturas que superem o Transformer e tragam melhor desempenho Lançamento de novos modelos como Mixtral, Mamba e Striped Hyena

(huggingface.co)

19 pontos por xguru 2023-12-21 | 1 comentários | Compartilhar no WhatsApp

O interesse do público por modelos de linguagem de grande escala (LLMs) aumentou, e a discussão sobre código aberto e código fechado se expandiu

Receita para LLMs pré-treinados

Arquitetura do modelo: descreve implementações específicas e a forma matemática
Dataset de treinamento: inclui exemplos e documentos com os quais o modelo aprende
Tokenizador: define como o texto é convertido em números
Hiperparâmetros de treinamento: definem como o modelo é treinado
Necessidade de poder computacional e monitoramento por especialistas
Os pesos de um modelo pré-treinado são usados na inferência

2022, da competição por tamanho à competição por dados

Até o início de 2022, o tamanho do modelo era um fator importante para o desempenho
Lançamento de modelos como BLOOM, OPT e GLM-130B
Uma nova pesquisa da DeepMind destacou a importância do tamanho dos dados, levando a uma mudança de paradigma

2023, o ano dos lançamentos abertos

Ascensão dos LLMs menores: em fevereiro foi lançado o LLaMA (Meta), em abril o Pythia (Eleuther AI), em maio o MPT (MosaicML), em junho o X-GEN (Salesforce) e o Falcon (TIIUAE), e em julho o Llama 2 (Meta). Em setembro, foram lançados o Qwen (Alibaba) e o Mistral (Mistral.AI); em novembro, o Yi (01-ai); e em dezembro, o DeciLM (Deci), o Phi-2 (Microsoft) e o SOLAR (Upstage)
Incluem pesos de modelo e mostraram bom desempenho em modelos menores, o que levou a uma rápida adoção pela comunidade
As principais diferenças estão nos dados de treinamento e na licença do modelo

Surgimento dos modelos conversacionais

Em 2023, a maioria dos modelos pré-treinados foi lançada com versões conversacionais
Uso de métodos como fine-tuning baseado em chat, fine-tuning por instruções, aprendizado por reforço com feedback humano (RLHF) e DPO (Direct Preference Optimization)
Lançamento de versões conversacionais dos modelos MPT, Falcon, XGen, Llama-2, Qwen, Yi e DeciLM

O papel da comunidade

A comunidade e os pesquisadores aproveitaram os modelos-base fornecidos para desenvolver novos datasets e modelos ajustados finamente
Lançamento de diversos datasets e estratégias de fine-tuning
- Human Preference: dataset WebGPT da OpenAI, dataset HH-RLHF (Anthropic) e Summarize (OpenAI)
- Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Democratização do acesso

Fusão de modelos/dados: combinação dos pesos dos modelos para integrar pontos fortes
PEFT: permite fine-tuning sem usar o modelo inteiro
Quantização: técnica para reduzir o tamanho do modelo e permitir que mais pessoas usem LLMs

O que vem a seguir?

Surgimento de novas arquiteturas que superem o Transformer e tragam melhor desempenho
Lançamento de novos modelos como Mixtral, Mamba e Striped Hyena

1 comentários

laeyoung 2023-12-22

Foi bom ver saírem muitos modelos open source bons. Teve o LLaMA, e também modelos open source disponibilizados para rodar até na Web, então baixei várias coisas e testei bastante. Mas, no fim, os únicos que realmente uso no dia a dia são o ChatGPT ou serviços SaaS de empresas que pegam o GPT-4 e oferecem em cima disso, o que é meio irônico. Modelo open source também é importante, mas no fim fico pensando se não é difícil sem uma infraestrutura que consiga rodar isso de forma estável e sem patrocinadores financeiros (?) que também consigam sustentar isso de forma estável.