- Modelos 3B/7B foram lançados, com os modelos 15B/30B/65B também previstos para lançamento, e há planos de chegar a 175B
- Os modelos usam a licença CC BY-SA-4.0, permitindo uso comercial com atribuição de autoria
- Baseado no dataset aberto The Pile, mas treinado com um novo dataset 3 vezes maior, com 1,5T tokens
- O comprimento de contexto é de 4096 tokens
- Também foi lançado como PoC o modelo StableLM-Tuned-Alpha-7B, ajustado seguindo o procedimento do Alpaca
- Usa 5 datasets conversacionais: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
- A demonstração do chatbot foi publicada no Hugging Face
2 comentários
Muito bom!
Assim como a divulgação do Stable Diffusion acelerou o mercado, agora também veremos uma enxurrada de dados e casos de uso disponíveis publicamente para modelos de linguagem.