Principais pontos:
Gemma 2 é uma nova família de modelos de linguagem abertos leves e de ponta, na faixa de 2 bilhões a 27 bilhões de parâmetros.
Os modelos de 9 bilhões e 27 bilhões de parâmetros já estão disponíveis, e o modelo de 2 bilhões será lançado em breve.
Principais melhorias técnicas:
- uso alternado de atenção local-global
- atenção por consulta em grupo
- treinamento com destilação de conhecimento para modelos menores
Os modelos apresentam desempenho de ponta para seu tamanho e são competitivos com modelos 2 a 3 vezes maiores.
Arquitetura do modelo:
- arquitetura Transformer somente decodificadora
- comprimento de contexto de 8192 tokens
- uso alternado de janela deslizante local (4096 tokens) e camadas de atenção global
- Grouped-Query Attention (GQA)
- RMSNorm para normalização de camadas
Treinamento:
- o modelo de 27 bilhões foi treinado com 13 trilhões de tokens
- o modelo de 9 bilhões foi treinado com 8 trilhões de tokens
- o modelo de 2,6 bilhões foi treinado com 2 trilhões de tokens
- fontes de dados: documentos da web, código e artigos científicos
- uso de destilação de conhecimento nos modelos de 2,6 bilhões e 9 bilhões
Desempenho:
- supera modelos abertos comparáveis em benchmarks
- é competitivo com alguns modelos maiores
- resultados fortes em tarefas de perguntas e respostas, raciocínio, matemática, ciências e programação
Segurança e responsabilidade:
- execução de testes extensivos de segurança e procedimentos de implantação responsável
- implementação de políticas de segurança e medidas de mitigação durante o treinamento
- disponibilização de um toolkit de IA generativa responsável para desenvolvedores
6 comentários
Será que vai chegar o momento em que poderemos rodar LLMs usando apenas CPU?
Com algo em torno de 20B, dá para rodar tranquilamente só com CPU. A partir de 60B, já começa a ficar pesado ou simplesmente não funciona direito. (Treinamento já é outra história.) Experimenta usar o ollama uma vez.
Eu não fazia a menor ideia dos requisitos, então agradeço pelo conselho. Parece que ainda é inviável em um notebook Intel de 11ª geração, então vou ter que colocar em um servidor de virtualização ou algo assim.
É só instalar o LM Studio.
O motivo de eu ter dito que parecia pesado demais no notebook é que o uso da CPU batia 100% em todos os núcleos e o aquecimento era intenso, então não achei a experiência confortável. O LM Studio tem uma UI de prompt, então a usabilidade até é boa, mas acho que não vai conseguir oferecer uma experiência confortável.
Ué..? Já fazem isso;;