10 pontos por haebom 2024-06-28 | 6 comentários | Compartilhar no WhatsApp

Principais pontos:

Gemma 2 é uma nova família de modelos de linguagem abertos leves e de ponta, na faixa de 2 bilhões a 27 bilhões de parâmetros.
Os modelos de 9 bilhões e 27 bilhões de parâmetros já estão disponíveis, e o modelo de 2 bilhões será lançado em breve.

Principais melhorias técnicas:

  • uso alternado de atenção local-global
  • atenção por consulta em grupo
  • treinamento com destilação de conhecimento para modelos menores
    Os modelos apresentam desempenho de ponta para seu tamanho e são competitivos com modelos 2 a 3 vezes maiores.

Arquitetura do modelo:

  • arquitetura Transformer somente decodificadora
  • comprimento de contexto de 8192 tokens
  • uso alternado de janela deslizante local (4096 tokens) e camadas de atenção global
  • Grouped-Query Attention (GQA)
  • RMSNorm para normalização de camadas

Treinamento:

  • o modelo de 27 bilhões foi treinado com 13 trilhões de tokens
  • o modelo de 9 bilhões foi treinado com 8 trilhões de tokens
  • o modelo de 2,6 bilhões foi treinado com 2 trilhões de tokens
  • fontes de dados: documentos da web, código e artigos científicos
  • uso de destilação de conhecimento nos modelos de 2,6 bilhões e 9 bilhões

Desempenho:

  • supera modelos abertos comparáveis em benchmarks
  • é competitivo com alguns modelos maiores
  • resultados fortes em tarefas de perguntas e respostas, raciocínio, matemática, ciências e programação

Segurança e responsabilidade:

  • execução de testes extensivos de segurança e procedimentos de implantação responsável
  • implementação de políticas de segurança e medidas de mitigação durante o treinamento
  • disponibilização de um toolkit de IA generativa responsável para desenvolvedores

6 comentários

 
savvykang 2024-06-28

Será que vai chegar o momento em que poderemos rodar LLMs usando apenas CPU?

 
haebom 2024-06-28

Com algo em torno de 20B, dá para rodar tranquilamente só com CPU. A partir de 60B, já começa a ficar pesado ou simplesmente não funciona direito. (Treinamento já é outra história.) Experimenta usar o ollama uma vez.

 
savvykang 2024-06-28

Eu não fazia a menor ideia dos requisitos, então agradeço pelo conselho. Parece que ainda é inviável em um notebook Intel de 11ª geração, então vou ter que colocar em um servidor de virtualização ou algo assim.

 
hhkkkk 2024-06-29

É só instalar o LM Studio.

 
savvykang 2024-06-29

O motivo de eu ter dito que parecia pesado demais no notebook é que o uso da CPU batia 100% em todos os núcleos e o aquecimento era intenso, então não achei a experiência confortável. O LM Studio tem uma UI de prompt, então a usabilidade até é boa, mas acho que não vai conseguir oferecer uma experiência confortável.

 
hhkkkk 2024-06-28

Ué..? Já fazem isso;;