17 pontos por xguru 2023-12-15 | 2 comentários | Compartilhar no WhatsApp
  • SLM: Small Language Model
  • Apesar de ser um modelo de 2,7B, apresenta desempenho igual ou superior ao de modelos até 25 vezes maiores
    • Supera o desempenho do Mistral 7B e do Llama-7B/13B
    • Em raciocínio em múltiplas etapas, como codificação e matemática, supera até o modelo Llama-2-70B, 25 vezes maior
    • É menor que o Google Gemini Nano 2, mas oferece desempenho igual ou superior
  • Consegue realizar tarefas semelhantes, como geração de texto e descrição de imagens, com menos poder computacional do que modelos como GPT-4 e Llama-2
  • Por ser pequeno, é um playground ideal para pesquisadores, incluindo experimentos de interpretabilidade mecanicista, melhorias de segurança ou fine-tuning para diversas tarefas

2 comentários

 
xguru 2023-12-15
 
xguru 2023-12-15
Comentários do Hacker News
  • Comparação do número de parâmetros entre GPT-3 e Phi-2
    • O GPT-3 tem 174 bilhões de parâmetros.
    • O Phi-2 tem 2,7 bilhões de parâmetros, sendo cerca de 65 vezes menor que o GPT-3.
  • Comparação da quantidade de dados de treinamento
    • O GPT-3 foi treinado com 300 bilhões de tokens.
    • O Phi-2 foi treinado com 1,4 trilhão de tokens, ou seja, com cerca de 5 vezes mais dados que o GPT-3.
  • Aquisição de linguagem humana e inteligência artificial
    • Um bebê humano precisa de cerca de 30 milhões de dados de aprendizado "equivalentes a tokens" para aprender uma língua.
    • Isso sugere que a estrutura biológica humana é especializada na aquisição de linguagem e possui fortes "guias" ou restrições que reduzem o espaço de hipóteses das possíveis línguas humanas.
    • Fico curioso se seria possível encontrar uma estrutura semelhante que permita a modelos de linguagem aprender com menos dados.
  • Disponibilidade dos pesos do Phi-2
    • Os pesos do Phi-2 foram divulgados, mas só podem ser baixados após fazer login no Azure Studio.
    • É possível baixar acessando a página do Phi-2 no Azure AI Studio e clicando na aba "artifacts".
  • Custo de treinamento do Phi-2
    • O Phi-2 foi treinado por 14 dias em 96 GPUs A100.
    • Isso significa que o custo de treinamento foi de cerca de USD 30 mil.
    • Se o custo de treinamento de LLMs (Large Language Models) ficar mais barato do que comprar um carro, isso pode contribuir muito para a democratização da IA.
  • Restrição de uso do Phi-2 para pesquisa
    • Apesar da restrição de "uso exclusivo para pesquisa", o desempenho do Phi-2 aumenta a possibilidade de uso local em vários dispositivos.
    • Há a opinião de que, se ele realmente entregar o desempenho alegado, o futuro parece promissor e/ou assustador.
  • Competição entre modelos pequenos
    • Recentemente, há uma competição intensa no campo dos modelos pequenos.
    • O principal objetivo desses modelos pequenos é ser implantado localmente em celulares/notebooks etc., impulsionando uma nova geração de apps/interfaces de usuário.
  • Comparação de desempenho entre Phi-2 e Mistral 7B
    • É impressionante que o Phi-2, com 2,7 bilhões de parâmetros, apresente desempenho melhor que o Mistral 7B, de 7 bilhões.
  • Problemas de acesso ao site
    • Não foi possível acessar o site, mas foi possível verificar por meio de uma versão em cache.
  • Forma de distribuição do Phi-2
    • O Phi-1.5 foi distribuído no huggingface, mas o Phi-2 foi adicionado apenas ao Azure AI Studio, aparentemente para incentivar desenvolvedores a se cadastrarem.
    • Há questionamentos sobre por que a Microsoft não participa do que seria o GitHub de ML, como o huggingface.
  • Possibilidade de download do modelo Phi-2
    • Há a pergunta se é possível baixar o modelo Phi-2 localmente ou se ele só pode ser usado no Azure.