Llama 3 8B mostra desempenho comparável ao Wizard 2 8x22B

(huggingface.co)

3 pontos por GN⁺ 2024-04-22 | 1 comentários | Compartilhar no WhatsApp

Desempenho do Meta-Llama-3-8B-Instruct

Mesmo sendo um modelo de 8B, apresenta desempenho quase equivalente ao Wizard 22B
Mostra capacidade de raciocínio superior até mesmo a modelos anteriores de 70B
Exibe desempenho muito forte em várias áreas, como resolução de problemas e programação

Características do Meta-Llama-3-8B-Instruct

Resultado de a Meta ter investido recursos massivos para treinar por longos períodos com mais dados
O desempenho varia conforme o desenvolvedor e o hardware. Os resultados também mudam de acordo com os parâmetros de inferência
Na versão FP16, mostra desempenho quase idêntico ao Q8_0. Para um modelo 8B, esse nível é de primeira linha entre modelos quantizados
O conteúdo gerado às vezes é ácido e espirituoso. Entende a intenção das frases e responde de forma adequada

Opinião do GN⁺

Em consultas únicas, fornece respostas confiáveis, mas ainda mostra limitações em conversas multiturno. É necessário melhorar com otimização de templates de prompt ou tuning de hiperparâmetros
Como o desempenho do modelo 8B é muito superior ao do modelo 3B, parece promissor fazer fine-tuning de vários modelos da classe 8B para criar modelos especializados
Como tem excelente compreensão de linguagem e capacidade de raciocínio, há alto potencial de uso em áreas intensivas em conhecimento ou domínios especializados. Pode evoluir para modelos especializados em domínios como medicina, direito e finanças
É um feito notável a Meta ter elevado um modelo 8B a esse nível com seus recursos e capacidade técnica. No futuro, a perspectiva é que PCs pessoais também possam executar modelos de IA de alto desempenho
É uma pena que não tenha sido divulgado um modelo de porte intermediário entre 8B e 70B. Se surgir um modelo de cerca de 32B, espera-se que ofereça desempenho e eficiência ideais

1 comentários

GN⁺ 2024-04-22

Opiniões do Hacker News

O modelo Llama 3 8B responde à pergunta sobre o que acontece quando se treina um modelo pequeno por muito, muito tempo. Essa é uma tendência que começou com os modelos da Mistral e se aprofunda no Llama 3. Usar 15T tokens em um modelo de 8B parâmetros é algo em um nível nunca visto até agora.
É um lançamento que aumenta a expectativa sobre a melhora de qualidade dos modelos pequenos.
O Llama 3 parece meio tagarela e às vezes parece fazer algumas suposições erradas. Por exemplo, imaginou que cuspir para cima olhando para o céu poderia alcançar as nuvens, mas depois corrigiu a si mesmo dizendo que, na realidade, isso não acontece.
Fico me perguntando se esses resultados vêm de mais treinamento e do consequente aumento de capacidade, ou se é porque esse tipo de enigma agora é bem conhecido e está bem representado nos dados de treinamento.
O diferencial do Llama 3 é o esforço extra em deduplicação dos dados de treinamento (qualidade) e aumento dos dados de treinamento (quantidade), além de usar 4 vezes mais código como material de treinamento (o que é bom para raciocínio).
Talvez possamos esperar ganhos enormes de desempenho até mesmo nesses modelos pequenos ao investir mais esforço em curadoria e geração dos dados de treinamento.
O Llama 3 ainda não usa Mixture of Experts (MoE). Isso sugere que criar modelos MoE gigantes pode ser um desperdício.
A Meta está gastando bilhões de dólares em chips de IA da Nvidia. Nos próximos 5 anos, parece viável rodar modelos 8B em nível GPT-4 em celulares e notebooks.
Fiquei profundamente impressionado com a capacidade de raciocínio do modelo 8b-instruct. O futuro dos modelos pequenos é animador.
O maior problema dos LLMs locais é que as pessoas podem ter impressões diferentes dependendo de como os usam.
A maioria das empresas continua treinando seus modelos o tempo todo; não existe um ponto em que o treinamento simplesmente termina. Isso ajuda a explicar por que os gastos com GPU são tão enormes.
Se você quiser rodar esse modelo hoje mesmo no celular, primeiro vai precisar começar executando o llama.cpp no Termux e carregando arquivos de modelo como os do ggml.
Surpreende que o modelo 8B erre a pergunta "o que pesa mais, 1 kg de ferro ou 2 kg de penas?". O GPT-3.5 também errou, mas o modelo 70B e o GPT-4 acertam.

Llama 3 8B mostra desempenho comparável ao Wizard 2 8x22B

Desempenho do Meta-Llama-3-8B-Instruct

Características do Meta-Llama-3-8B-Instruct

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões do Hacker News