33 pontos por xguru 2023-03-19 | 1 comentários | Compartilhar no WhatsApp
  • Treinado da mesma forma que o método de treinamento do modelo Alpaca de Stanford
  • Usa Polyglot-ko 5.8B e LLaMA 7B como modelos de base
    • O LLaMA teve pouco treinamento com datasets em coreano, então seu desempenho em coreano é baixo; um modelo em coreano foi treinado adicionalmente
  • O dataset de 52k instruções do LLaMA foi traduzido com a API do DeepL

1 comentários

 
luckydaun 2023-03-19

Nossa... esse ecossistema está evoluindo numa velocidade realmente impressionante. Mesmo nos modelos Transformer existentes, a diferença de desempenho entre modelos localizados para coreano e modelos de uso geral é enorme, então é um ótimo projeto open source.