8 pontos por GN⁺ 2024-04-24 | 2 comentários | Compartilhar no WhatsApp

Introdução ao modelo de linguagem phi-3-mini

  • O phi-3-mini é um modelo de linguagem com 3,8B parâmetros, treinado com 3,3 trilhões de tokens
  • Em benchmarks acadêmicos e testes internos, apresentou desempenho comparável a modelos como Mixtral 8x7B e GPT-3.5 (MMLU 69%, MT-bench 8,38)
  • Apesar de ser pequeno o suficiente para ser implantado em celulares, apresenta desempenho excelente
  • É uma versão expandida do conjunto de dados usado no phi-2, composta por dados da web filtrados e dados sintéticos
  • Também passou por alinhamento adicional para robustez, segurança e formato de chat

Introdução aos modelos phi-3-small e phi-3-medium

  • Também são apresentados resultados iniciais de escalonamento de parâmetros dos modelos phi-3-small e phi-3-medium, de 7B e 14B, treinados com 4,8 trilhões de tokens
  • Apresentam desempenho muito superior ao phi-3-mini (MMLU 75%, 78%, MT-bench 8,7 e 8,9)

Opinião do GN⁺

  • É impressionante que um modelo de linguagem pequeno o suficiente para uso em celulares apresente alto desempenho. Isso sugere que o potencial de uso de IA em dispositivos móveis deve crescer ainda mais no futuro
  • No entanto, pode haver preocupações relacionadas à proteção de dados pessoais e à privacidade. Mesmo que o processamento ocorra localmente no dispositivo, os dados do usuário precisam ser gerenciados com segurança
  • A abordagem de treinamento com dados da web e dados sintéticos é interessante. Deve ter exigido muito esforço na coleta e curadoria dos dados. É um caso que mostra como dados de alta qualidade levam a bom desempenho
  • Os resultados de comparação de desempenho conforme o tamanho do modelo também são interessantes. Escolher um modelo de tamanho adequado parece importante do ponto de vista da eficiência
  • Estão surgindo modelos de linguagem open source mais leves, como o StableLM da Stability AI e o Claude da Anthropic. Espera-se o surgimento de diversos casos de uso

2 comentários

 
GN⁺ 2024-04-24
Comentários no Hacker News
  • É preciso interpretar com cautela os resultados de benchmark do modelo Phi-3. Já houve o precedente de o desempenho real do modelo Phi-2 anterior ter ficado abaixo dos números de benchmark. Isso pode não se traduzir diretamente em uso prático ou em posição no ranking do LMSYS.

  • Ainda assim, o Phi-3 mostra bom desempenho com um tamanho de modelo pequeno. Isso sugere que o método de destilação via "dados sintéticos" para transferir o desempenho do GPT-4 para um modelo menor pode ser eficaz. Dá para vislumbrar o potencial da abordagem Chinchilla, em que um modelo gigante é treinado de forma otimizada e depois destilado em um modelo menor.

  • No ranking em inglês do LMSYS, os modelos Phi-3 mostram desempenho comparável ao do Llama 3, GPT-3.5 e outros. Em especial, o Phi-3-mini 3.8B, com 3.8B parâmetros, rivaliza com o Llama 3 8B. Isso sugere a possibilidade do surgimento de um LLM open source em nível de GPT-4 que rode em celular.

  • No entanto, esses benchmarks têm a limitação de serem fáceis de o modelo "jogar". Em vez de focar em tarefas individuais, é preciso prestar atenção ao desempenho geral. Parece necessário um exame cuidadoso sob vários pontos de vista.

  • Alguns dos modelos Phi-3 foram publicados no HuggingFace. A perspectiva é de que o uso dos modelos fique mais fácil.

  • O treinamento com um enorme volume de 3,3 trilhões de tokens de dados sintéticos contribuiu para tornar o modelo mais leve. Isso também pode ajudar a resolver questões de direitos autorais.

  • Porém, no uso real, fora das áreas cobertas pelos dados de treinamento, ele fala muita bobagem. Pode ser eficaz para finetuning de tarefas específicas, mas parece difícil substituir o GPT-3.5 em conversas gerais.

  • Os pesos do modelo foram publicados no HuggingFace nas versões de contexto 4k e 128k. Isso tem atraído interesse quanto às possibilidades de uso em finetuning ou RAG (Retrieval-Augmented Generation).