O estado atual dos modelos de linguagem de código aberto

xguru · 2023-08-09T11:03:01+09:00

Ficou ainda mais aquecido após o lançamento do LLaMA 2 Quase todos os grupos de modelos de código aberto atualizaram seus modelos usando um novo modelo base WizardLM, Airoboros, Hermes etc. Atualmente, o modelo mais poderoso é o Stable Beluga 2, da StabilityAI Ajustado finamente a partir do modelo Llama2 70B com um dataset no estilo Orca Comparável ao ChatGPT Modelos longos LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K Modelos pequenos, mas poderosos Modelos de 3B parâmetros tão poderosos quanto os de 7B Ainda não chegaram ao limite, e ainda há muito espaço para avançar SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP) Um modelo aberto vence o ChatGPT no MMLU: llama-2-70b-guanaco-qlora Chat multi-turno: llama2-13b-orca-8k-3319 Os modelos chineses estão competindo: CodeGeex2 Um modelo aberto já alcançou o nível do ChatGPT? Ainda não, mas pode chegar lá em breve

(twitter.com/Yampeleg)

22 pontos por xguru 2023-08-09 | 3 comentários | Compartilhar no WhatsApp

Ficou ainda mais aquecido após o lançamento do LLaMA 2
- Quase todos os grupos de modelos de código aberto atualizaram seus modelos usando um novo modelo base
  - WizardLM, Airoboros, Hermes etc.
- Atualmente, o modelo mais poderoso é o Stable Beluga 2, da StabilityAI
  - Ajustado finamente a partir do modelo Llama2 70B com um dataset no estilo Orca
  - Comparável ao ChatGPT
Modelos longos
- LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
Modelos pequenos, mas poderosos
- Modelos de 3B parâmetros tão poderosos quanto os de 7B
- Ainda não chegaram ao limite, e ainda há muito espaço para avançar
- SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
Um modelo aberto vence o ChatGPT no MMLU: llama-2-70b-guanaco-qlora
Chat multi-turno: llama2-13b-orca-8k-3319
Os modelos chineses estão competindo: CodeGeex2
Um modelo aberto já alcançou o nível do ChatGPT?
- Ainda não, mas pode chegar lá em breve

3 comentários

botplaysdice 2023-08-10

Parece que vai aumentar bastante a preocupação com monetização, sobre como cada um deve ganhar dinheiro no seu respectivo papel.

geekbini 2023-08-09

Tem tantos serviços de IA aparecendo que dá até paralisia de escolha, desde serviços de IA de uso geral até os especializados para desenvolvedores~

kuroneko 2023-08-09

Espero que os modelos em coreano também evoluam.

O estado atual dos modelos de linguagem de código aberto

Leituras relacionadas

3 comentários