- SLM: Small Language Model
- Apesar de ser um modelo de 2,7B, apresenta desempenho igual ou superior ao de modelos até 25 vezes maiores
- Supera o desempenho do Mistral 7B e do Llama-7B/13B
- Em raciocínio em múltiplas etapas, como codificação e matemática, supera até o modelo Llama-2-70B, 25 vezes maior
- É menor que o Google Gemini Nano 2, mas oferece desempenho igual ou superior
- Consegue realizar tarefas semelhantes, como geração de texto e descrição de imagens, com menos poder computacional do que modelos como GPT-4 e Llama-2
- Por ser pequeno, é um playground ideal para pesquisadores, incluindo experimentos de interpretabilidade mecanicista, melhorias de segurança ou fine-tuning para diversas tarefas
2 comentários
Os pesos estão aqui: https://huggingface.co/microsoft/phi-2
Comentários do Hacker News