3 pontos por GN⁺ 2024-04-22 | 1 comentários | Compartilhar no WhatsApp

Desempenho do Meta-Llama-3-8B-Instruct

  • Mesmo sendo um modelo de 8B, apresenta desempenho quase equivalente ao Wizard 22B
  • Mostra capacidade de raciocínio superior até mesmo a modelos anteriores de 70B
  • Exibe desempenho muito forte em várias áreas, como resolução de problemas e programação

Características do Meta-Llama-3-8B-Instruct

  • Resultado de a Meta ter investido recursos massivos para treinar por longos períodos com mais dados
  • O desempenho varia conforme o desenvolvedor e o hardware. Os resultados também mudam de acordo com os parâmetros de inferência
  • Na versão FP16, mostra desempenho quase idêntico ao Q8_0. Para um modelo 8B, esse nível é de primeira linha entre modelos quantizados
  • O conteúdo gerado às vezes é ácido e espirituoso. Entende a intenção das frases e responde de forma adequada

Opinião do GN⁺

  • Em consultas únicas, fornece respostas confiáveis, mas ainda mostra limitações em conversas multiturno. É necessário melhorar com otimização de templates de prompt ou tuning de hiperparâmetros
  • Como o desempenho do modelo 8B é muito superior ao do modelo 3B, parece promissor fazer fine-tuning de vários modelos da classe 8B para criar modelos especializados
  • Como tem excelente compreensão de linguagem e capacidade de raciocínio, há alto potencial de uso em áreas intensivas em conhecimento ou domínios especializados. Pode evoluir para modelos especializados em domínios como medicina, direito e finanças
  • É um feito notável a Meta ter elevado um modelo 8B a esse nível com seus recursos e capacidade técnica. No futuro, a perspectiva é que PCs pessoais também possam executar modelos de IA de alto desempenho
  • É uma pena que não tenha sido divulgado um modelo de porte intermediário entre 8B e 70B. Se surgir um modelo de cerca de 32B, espera-se que ofereça desempenho e eficiência ideais

1 comentários

 
GN⁺ 2024-04-22
Opiniões do Hacker News
  • O modelo Llama 3 8B responde à pergunta sobre o que acontece quando se treina um modelo pequeno por muito, muito tempo. Essa é uma tendência que começou com os modelos da Mistral e se aprofunda no Llama 3. Usar 15T tokens em um modelo de 8B parâmetros é algo em um nível nunca visto até agora.
  • É um lançamento que aumenta a expectativa sobre a melhora de qualidade dos modelos pequenos.
  • O Llama 3 parece meio tagarela e às vezes parece fazer algumas suposições erradas. Por exemplo, imaginou que cuspir para cima olhando para o céu poderia alcançar as nuvens, mas depois corrigiu a si mesmo dizendo que, na realidade, isso não acontece.
  • Fico me perguntando se esses resultados vêm de mais treinamento e do consequente aumento de capacidade, ou se é porque esse tipo de enigma agora é bem conhecido e está bem representado nos dados de treinamento.
  • O diferencial do Llama 3 é o esforço extra em deduplicação dos dados de treinamento (qualidade) e aumento dos dados de treinamento (quantidade), além de usar 4 vezes mais código como material de treinamento (o que é bom para raciocínio).
  • Talvez possamos esperar ganhos enormes de desempenho até mesmo nesses modelos pequenos ao investir mais esforço em curadoria e geração dos dados de treinamento.
  • O Llama 3 ainda não usa Mixture of Experts (MoE). Isso sugere que criar modelos MoE gigantes pode ser um desperdício.
  • A Meta está gastando bilhões de dólares em chips de IA da Nvidia. Nos próximos 5 anos, parece viável rodar modelos 8B em nível GPT-4 em celulares e notebooks.
  • Fiquei profundamente impressionado com a capacidade de raciocínio do modelo 8b-instruct. O futuro dos modelos pequenos é animador.
  • O maior problema dos LLMs locais é que as pessoas podem ter impressões diferentes dependendo de como os usam.
  • A maioria das empresas continua treinando seus modelos o tempo todo; não existe um ponto em que o treinamento simplesmente termina. Isso ajuda a explicar por que os gastos com GPU são tão enormes.
  • Se você quiser rodar esse modelo hoje mesmo no celular, primeiro vai precisar começar executando o llama.cpp no Termux e carregando arquivos de modelo como os do ggml.
  • Surpreende que o modelo 8B erre a pergunta "o que pesa mais, 1 kg de ferro ou 2 kg de penas?". O GPT-3.5 também errou, mas o modelo 70B e o GPT-4 acertam.