- O modelo de linguagem mais poderoso até agora
- Um modelo com 7.3B parâmetros que supera o Llama 2 13B em todos os benchmarks e o Llama 1 34B em muitos benchmarks
- Usa Grouped-query attention (GQA) para inferência mais rápida e Sliding Window Attention (SWA) para processar sequências mais longas com custo menor
- Licenciado sob Apache 2.0, pode ser usado sem restrições
- Pode ser implantado em qualquer nuvem (AWS/GCP/Azure) usando o servidor de inferência vLLM e o SkyPilot, além de poder ser usado no HuggingFace
- Pode ser ajustado com facilidade, e o modelo ajustado para chat supera o Llama 2 13B Chat
1 comentários
Opiniões do Hacker News