5 pontos por GN⁺ 2023-07-19 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de linguagem de grande porte open source que pode ser usado tanto para pesquisa quanto para fins comerciais
  • Treinado com 2 trilhões de tokens de dados, 40% mais do que o Llama 1
  • Comprimento de contexto 2 vezes maior: 4096
  • Três tamanhos de modelo: 7B, 13B, 70B
  • Desempenho superior a outros modelos de linguagem open source em muitos benchmarks, como raciocínio, codificação, proficiência e testes de conhecimento (MPT, Falcon, Llama-1)
  • Foi treinado com fontes de dados públicas, e o Llama-2-chat ajustado também utiliza conjuntos públicos de instruções e mais de um milhão de anotações humanas
    • Uso de Reinforcement Learning from Human Feedback (RLHF), incluindo Rejection Sampling e Proximal Policy Optimization (PPO)
  • Itens incluídos no download
    • Model code
    • Model Weights
    • README (User Guide)
    • Responsible Use Guide
    • License
    • Acceptable Use Policy
    • Model Card

1 comentários

 
GN⁺ 2023-07-19
Comentários do Hacker News
  • Llama 2 está superando e alcançando o GPT-3.5 em benchmarks específicos
  • Llama 2 apresentou ótimo desempenho nos testes AI2 Reasoning Challenge, HellaSwag e MMLU
  • Llama 2 tem desempenho semelhante ao GPT-3.5 com menos parâmetros
  • Llama 2 pode ser testado facilmente e adicionado a aplicativos
  • Llama 2 tem uma licença não aberta que alguns usuários criticam
  • Llama 2 pode ser acessado por meio de várias ferramentas e plataformas
  • Llama 2 tem guardrails que podem ser contornados em alguns casos
  • O lançamento do Llama 2 é visto como um movimento positivo e benéfico para a indústria
  • O treinamento do Llama 2 com 2T tokens melhorou o desempenho em comparação com o Llama 1
  • A escalabilidade dos modelos Llama pode viabilizar modelos poderosos em GPUs de consumo