Introdução ao modelo de linguagem phi-3-mini
- O phi-3-mini é um modelo de linguagem com 3,8B parâmetros, treinado com 3,3 trilhões de tokens
- Em benchmarks acadêmicos e testes internos, apresentou desempenho comparável a modelos como Mixtral 8x7B e GPT-3.5 (MMLU 69%, MT-bench 8,38)
- Apesar de ser pequeno o suficiente para ser implantado em celulares, apresenta desempenho excelente
- É uma versão expandida do conjunto de dados usado no phi-2, composta por dados da web filtrados e dados sintéticos
- Também passou por alinhamento adicional para robustez, segurança e formato de chat
Introdução aos modelos phi-3-small e phi-3-medium
- Também são apresentados resultados iniciais de escalonamento de parâmetros dos modelos phi-3-small e phi-3-medium, de 7B e 14B, treinados com 4,8 trilhões de tokens
- Apresentam desempenho muito superior ao phi-3-mini (MMLU 75%, 78%, MT-bench 8,7 e 8,9)
Opinião do GN⁺
- É impressionante que um modelo de linguagem pequeno o suficiente para uso em celulares apresente alto desempenho. Isso sugere que o potencial de uso de IA em dispositivos móveis deve crescer ainda mais no futuro
- No entanto, pode haver preocupações relacionadas à proteção de dados pessoais e à privacidade. Mesmo que o processamento ocorra localmente no dispositivo, os dados do usuário precisam ser gerenciados com segurança
- A abordagem de treinamento com dados da web e dados sintéticos é interessante. Deve ter exigido muito esforço na coleta e curadoria dos dados. É um caso que mostra como dados de alta qualidade levam a bom desempenho
- Os resultados de comparação de desempenho conforme o tamanho do modelo também são interessantes. Escolher um modelo de tamanho adequado parece importante do ponto de vista da eficiência
- Estão surgindo modelos de linguagem open source mais leves, como o StableLM da Stability AI e o Claude da Anthropic. Espera-se o surgimento de diversos casos de uso
2 comentários
Microsoft revela o modelo de linguagem Phi-2, pequeno, porém poderoso, com 2.7B
Comentários no Hacker News
É preciso interpretar com cautela os resultados de benchmark do modelo Phi-3. Já houve o precedente de o desempenho real do modelo Phi-2 anterior ter ficado abaixo dos números de benchmark. Isso pode não se traduzir diretamente em uso prático ou em posição no ranking do LMSYS.
Ainda assim, o Phi-3 mostra bom desempenho com um tamanho de modelo pequeno. Isso sugere que o método de destilação via "dados sintéticos" para transferir o desempenho do GPT-4 para um modelo menor pode ser eficaz. Dá para vislumbrar o potencial da abordagem Chinchilla, em que um modelo gigante é treinado de forma otimizada e depois destilado em um modelo menor.
No ranking em inglês do LMSYS, os modelos Phi-3 mostram desempenho comparável ao do Llama 3, GPT-3.5 e outros. Em especial, o Phi-3-mini 3.8B, com 3.8B parâmetros, rivaliza com o Llama 3 8B. Isso sugere a possibilidade do surgimento de um LLM open source em nível de GPT-4 que rode em celular.
No entanto, esses benchmarks têm a limitação de serem fáceis de o modelo "jogar". Em vez de focar em tarefas individuais, é preciso prestar atenção ao desempenho geral. Parece necessário um exame cuidadoso sob vários pontos de vista.
Alguns dos modelos Phi-3 foram publicados no HuggingFace. A perspectiva é de que o uso dos modelos fique mais fácil.
O treinamento com um enorme volume de 3,3 trilhões de tokens de dados sintéticos contribuiu para tornar o modelo mais leve. Isso também pode ajudar a resolver questões de direitos autorais.
Porém, no uso real, fora das áreas cobertas pelos dados de treinamento, ele fala muita bobagem. Pode ser eficaz para finetuning de tarefas específicas, mas parece difícil substituir o GPT-3.5 em conversas gerais.
Os pesos do modelo foram publicados no HuggingFace nas versões de contexto 4k e 128k. Isso tem atraído interesse quanto às possibilidades de uso em finetuning ou RAG (Retrieval-Augmented Generation).