- Lançado em quatro tamanhos: 7B, 13B, 33B e 65B
- Embora seja muito menor em escala, é um modelo eficiente que, com melhor treinamento de dados e fine-tuning, pode ser comparado a modelos maiores
- Os modelos 33B/65B foram treinados com 1,4 trilhão de tokens (o 7B com 1 trilhão)
- "O modelo 13B supera o GPT-3 de 175B, e o 65B pode competir com o Chinchilla70B e o PaLM-540B, muito maiores"
- Pode ser usado apenas para fins não comerciais, como pesquisa em inteligência artificial (é necessário solicitar e obter aprovação)
Ainda não há comentários.