Gemma 2: melhorias em modelos de linguagem abertos em escala prática

(ai.google.dev)

10 pontos por haebom 2024-06-28 | 6 comentários | Compartilhar no WhatsApp

Principais pontos:

Gemma 2 é uma nova família de modelos de linguagem abertos leves e de ponta, na faixa de 2 bilhões a 27 bilhões de parâmetros.
Os modelos de 9 bilhões e 27 bilhões de parâmetros já estão disponíveis, e o modelo de 2 bilhões será lançado em breve.

Principais melhorias técnicas:

uso alternado de atenção local-global
atenção por consulta em grupo
treinamento com destilação de conhecimento para modelos menores
Os modelos apresentam desempenho de ponta para seu tamanho e são competitivos com modelos 2 a 3 vezes maiores.

Arquitetura do modelo:

arquitetura Transformer somente decodificadora
comprimento de contexto de 8192 tokens
uso alternado de janela deslizante local (4096 tokens) e camadas de atenção global
Grouped-Query Attention (GQA)
RMSNorm para normalização de camadas

Treinamento:

o modelo de 27 bilhões foi treinado com 13 trilhões de tokens
o modelo de 9 bilhões foi treinado com 8 trilhões de tokens
o modelo de 2,6 bilhões foi treinado com 2 trilhões de tokens
fontes de dados: documentos da web, código e artigos científicos
uso de destilação de conhecimento nos modelos de 2,6 bilhões e 9 bilhões

Desempenho:

supera modelos abertos comparáveis em benchmarks
é competitivo com alguns modelos maiores
resultados fortes em tarefas de perguntas e respostas, raciocínio, matemática, ciências e programação

Segurança e responsabilidade:

execução de testes extensivos de segurança e procedimentos de implantação responsável
implementação de políticas de segurança e medidas de mitigação durante o treinamento
disponibilização de um toolkit de IA generativa responsável para desenvolvedores

6 comentários

savvykang 2024-06-28

Será que vai chegar o momento em que poderemos rodar LLMs usando apenas CPU?

haebom 2024-06-28

Com algo em torno de 20B, dá para rodar tranquilamente só com CPU. A partir de 60B, já começa a ficar pesado ou simplesmente não funciona direito. (Treinamento já é outra história.) Experimenta usar o ollama uma vez.

savvykang 2024-06-28

Eu não fazia a menor ideia dos requisitos, então agradeço pelo conselho. Parece que ainda é inviável em um notebook Intel de 11ª geração, então vou ter que colocar em um servidor de virtualização ou algo assim.

hhkkkk 2024-06-29

É só instalar o LM Studio.

savvykang 2024-06-29

O motivo de eu ter dito que parecia pesado demais no notebook é que o uso da CPU batia 100% em todos os núcleos e o aquecimento era intenso, então não achei a experiência confortável. O LM Studio tem uma UI de prompt, então a usabilidade até é boa, mas acho que não vai conseguir oferecer uma experiência confortável.

hhkkkk 2024-06-28

Ué..? Já fazem isso;;