- Ficou ainda mais aquecido após o lançamento do LLaMA 2
- Quase todos os grupos de modelos de código aberto atualizaram seus modelos usando um novo modelo base
- WizardLM, Airoboros, Hermes etc.
- Atualmente, o modelo mais poderoso é o Stable Beluga 2, da StabilityAI
- Ajustado finamente a partir do modelo Llama2 70B com um dataset no estilo Orca
- Comparável ao ChatGPT
- Modelos longos
- LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
- Modelos pequenos, mas poderosos
- Modelos de 3B parâmetros tão poderosos quanto os de 7B
- Ainda não chegaram ao limite, e ainda há muito espaço para avançar
- SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
- Um modelo aberto vence o ChatGPT no MMLU: llama-2-70b-guanaco-qlora
- Chat multi-turno: llama2-13b-orca-8k-3319
- Os modelos chineses estão competindo: CodeGeex2
- Um modelo aberto já alcançou o nível do ChatGPT?
- Ainda não, mas pode chegar lá em breve
3 comentários
Parece que vai aumentar bastante a preocupação com monetização, sobre como cada um deve ganhar dinheiro no seu respectivo papel.
Tem tantos serviços de IA aparecendo que dá até paralisia de escolha, desde serviços de IA de uso geral até os especializados para desenvolvedores~
Espero que os modelos em coreano também evoluam.