Microsoft revela o Phi-2, modelo de linguagem pequeno, mas poderoso, com 2,7B

xguru · 2023-12-15T09:21:19+09:00

SLM: Small Language Model Apesar de ser um modelo de 2,7B, apresenta desempenho igual ou superior ao de modelos até 25 vezes maiores Supera o desempenho do Mistral 7B e do Llama-7B/13B Em raciocínio em múltiplas etapas, como codificação e matemática, supera até o modelo Llama-2-70B, 25 vezes maior É menor que o Google Gemini Nano 2, mas oferece desempenho igual ou superior Consegue realizar tarefas semelhantes, como geração de texto e descrição de imagens, com menos poder computacional do que modelos como GPT-4 e Llama-2 Por ser pequeno, é um playground ideal para pesquisadores, incluindo experimentos de interpretabilidade mecanicista, melhorias de segurança ou fine-tuning para diversas tarefas

(microsoft.com)

17 pontos por xguru 2023-12-15 | 2 comentários | Compartilhar no WhatsApp

SLM: Small Language Model
Apesar de ser um modelo de 2,7B, apresenta desempenho igual ou superior ao de modelos até 25 vezes maiores
- Supera o desempenho do Mistral 7B e do Llama-7B/13B
- Em raciocínio em múltiplas etapas, como codificação e matemática, supera até o modelo Llama-2-70B, 25 vezes maior
- É menor que o Google Gemini Nano 2, mas oferece desempenho igual ou superior
Consegue realizar tarefas semelhantes, como geração de texto e descrição de imagens, com menos poder computacional do que modelos como GPT-4 e Llama-2
Por ser pequeno, é um playground ideal para pesquisadores, incluindo experimentos de interpretabilidade mecanicista, melhorias de segurança ou fine-tuning para diversas tarefas

2 comentários

xguru 2023-12-15

Os pesos estão aqui: https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Comentários do Hacker News

Comparação do número de parâmetros entre GPT-3 e Phi-2
- O GPT-3 tem 174 bilhões de parâmetros.
- O Phi-2 tem 2,7 bilhões de parâmetros, sendo cerca de 65 vezes menor que o GPT-3.
Comparação da quantidade de dados de treinamento
- O GPT-3 foi treinado com 300 bilhões de tokens.
- O Phi-2 foi treinado com 1,4 trilhão de tokens, ou seja, com cerca de 5 vezes mais dados que o GPT-3.
Aquisição de linguagem humana e inteligência artificial
- Um bebê humano precisa de cerca de 30 milhões de dados de aprendizado "equivalentes a tokens" para aprender uma língua.
- Isso sugere que a estrutura biológica humana é especializada na aquisição de linguagem e possui fortes "guias" ou restrições que reduzem o espaço de hipóteses das possíveis línguas humanas.
- Fico curioso se seria possível encontrar uma estrutura semelhante que permita a modelos de linguagem aprender com menos dados.
Disponibilidade dos pesos do Phi-2
- Os pesos do Phi-2 foram divulgados, mas só podem ser baixados após fazer login no Azure Studio.
- É possível baixar acessando a página do Phi-2 no Azure AI Studio e clicando na aba "artifacts".
Custo de treinamento do Phi-2
- O Phi-2 foi treinado por 14 dias em 96 GPUs A100.
- Isso significa que o custo de treinamento foi de cerca de USD 30 mil.
- Se o custo de treinamento de LLMs (Large Language Models) ficar mais barato do que comprar um carro, isso pode contribuir muito para a democratização da IA.
Restrição de uso do Phi-2 para pesquisa
- Apesar da restrição de "uso exclusivo para pesquisa", o desempenho do Phi-2 aumenta a possibilidade de uso local em vários dispositivos.
- Há a opinião de que, se ele realmente entregar o desempenho alegado, o futuro parece promissor e/ou assustador.
Competição entre modelos pequenos
- Recentemente, há uma competição intensa no campo dos modelos pequenos.
- O principal objetivo desses modelos pequenos é ser implantado localmente em celulares/notebooks etc., impulsionando uma nova geração de apps/interfaces de usuário.
Comparação de desempenho entre Phi-2 e Mistral 7B
- É impressionante que o Phi-2, com 2,7 bilhões de parâmetros, apresente desempenho melhor que o Mistral 7B, de 7 bilhões.
Problemas de acesso ao site
- Não foi possível acessar o site, mas foi possível verificar por meio de uma versão em cache.
Forma de distribuição do Phi-2
- O Phi-1.5 foi distribuído no huggingface, mas o Phi-2 foi adicionado apenas ao Azure AI Studio, aparentemente para incentivar desenvolvedores a se cadastrarem.
- Há questionamentos sobre por que a Microsoft não participa do que seria o GitHub de ML, como o huggingface.
Possibilidade de download do modelo Phi-2
- Há a pergunta se é possível baixar o modelo Phi-2 localmente ou se ele só pode ser usado no Azure.

Microsoft revela o Phi-2, modelo de linguagem pequeno, mas poderoso, com 2,7B

Leituras relacionadas

2 comentários

Comentários do Hacker News