22 pontos por xguru 2023-08-09 | 3 comentários | Compartilhar no WhatsApp
  • Ficou ainda mais aquecido após o lançamento do LLaMA 2
    • Quase todos os grupos de modelos de código aberto atualizaram seus modelos usando um novo modelo base
      • WizardLM, Airoboros, Hermes etc.
    • Atualmente, o modelo mais poderoso é o Stable Beluga 2, da StabilityAI
      • Ajustado finamente a partir do modelo Llama2 70B com um dataset no estilo Orca
      • Comparável ao ChatGPT
  • Modelos longos
    • LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
  • Modelos pequenos, mas poderosos
    • Modelos de 3B parâmetros tão poderosos quanto os de 7B
    • Ainda não chegaram ao limite, e ainda há muito espaço para avançar
    • SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
  • Um modelo aberto vence o ChatGPT no MMLU: llama-2-70b-guanaco-qlora
  • Chat multi-turno: llama2-13b-orca-8k-3319
  • Os modelos chineses estão competindo: CodeGeex2
  • Um modelo aberto já alcançou o nível do ChatGPT?
    • Ainda não, mas pode chegar lá em breve

3 comentários

 
botplaysdice 2023-08-10

Parece que vai aumentar bastante a preocupação com monetização, sobre como cada um deve ganhar dinheiro no seu respectivo papel.

 
geekbini 2023-08-09

Tem tantos serviços de IA aparecendo que dá até paralisia de escolha, desde serviços de IA de uso geral até os especializados para desenvolvedores~

 
kuroneko 2023-08-09

Espero que os modelos em coreano também evoluam.