9 pontos por xguru 2023-12-15 | 1 comentários | Compartilhar no WhatsApp
  • Desenvolveu e aplicou a técnica de Depth Up-Scaling para maximizar as capacidades do Llama2 7B existente
  • Em benchmarks, apresenta excelente desempenho entre modelos com menos de 3 bilhões de parâmetros, superando o QWEN, 6 vezes maior, e o modelo Mixtral 8x7B lançado recentemente
    • 1º lugar no leaderboard OpenLLM com 74,2 pontos. O QWEN-72B da Alibaba ficou com 73,6, e o Mixtral-8x7B com 72,6
  • O fine-tuning de instruções foi bem aplicado
  • Como o modelo divulgado desta vez é baseado em inglês, o desempenho em coreano pode ser baixo

1 comentários