Relatório técnico do Gemma 3, do Google DeepMind [pdf]

(storage.googleapis.com)

2 pontos por GN⁺ 2025-03-13 | Ainda não há comentários. | Compartilhar no WhatsApp

Gemma 3 é a nova família de modelos abertos e leves do Google DeepMind, com tamanhos de parâmetro que variam de 1B a 27B
Principais melhorias:
- Adição de capacidade multimodal → inclui compreensão visual
- Processamento de contexto longo → suporta até 128K tokens
- Reforço do suporte multilíngue → melhor desempenho em vários idiomas
- Otimização do uso de memória → redução do uso de memória do KV-cache ajustando a proporção entre camadas de atenção local e global (5:1)
Treinado com Knowledge Distillation → desempenho melhor que a versão anterior

Mantém a arquitetura Transformer somente decodificador
Introdução de Grouped-Query Attention (GQA) → aplicação de um mecanismo de atenção mais eficiente
Configuração da proporção de atenção local/global em 5:1 → mantendo a janela local em 1024 tokens
Expansão da frequência base de RoPE (Rotary Position Embedding) de 10K para 1M → reforço no suporte a contexto longo
Encoder visual: usa um encoder baseado em SigLIP (400M parâmetros)

Encoder visual: opera em resolução 896 x 896
Aplicação da técnica Pan & Scan (P&S) → permite processar imagens com proporções irregulares
O encoder visual é compartilhado entre os modelos 4B, 12B e 27B → permanece congelado durante o treinamento

Treinamento realizado com Knowledge Distillation
Número de tokens usados no treinamento:
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
Melhoria no desempenho multilíngue → inclui dados monolíngues e paralelos
Processo de curadoria → remoção de informações pessoais e dados sensíveis

Quantização realizada após o treinamento → disponível em vários formatos, como int4 e fp8
Economia de memória:
- Com base no modelo 27B:
  - Original: 54GB → após quantização: mínimo de 14.1GB

Aplicação combinada de aprendizado por reforço e knowledge distillation
Reforço em utilidade, matemática, código, raciocínio e capacidades multilíngues
Principais técnicas usadas no aprendizado por reforço:
- BOND, WARM, WARP → aplicação de técnicas de aprendizado por reforço baseadas em recompensa
Curadoria de dados → remoção de dados desnecessários e informações sensíveis

Modelo Gemma 3 27B IT com pontuação Elo: 1338 → desempenho entre os 10 melhores
Registrou desempenho próximo ao GPT-4.5 e ao Grok-3-Preview
Alta de 118 pontos em relação ao Gemma 2 27B, a versão anterior

Proporção de atenção local:global → 5:1 é a ideal em desempenho e uso de memória
Tamanho da janela deslizante → 1024 tokens mantêm a eficiência de memória sem perda de desempenho
Redução da memória de KV cache → 15% menor em comparação com atenção exclusivamente global

No treinamento, começou em 32K tokens → depois escalado para 128K tokens
Ajuste da frequência de RoPE → expansão de contexto sem queda de desempenho

O desempenho melhora com o aumento da resolução de entrada:
- De 256 → 896 de resolução, o desempenho sobe até 20%
Ganho de desempenho com a técnica Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%

Redução da taxa de memorização (Memorization Rate):
- O Gemma 3 reduz o uso de memória em comparação com o Gemma 2
- Menor risco de vazamento de informações pessoais

Prevenção de conteúdo nocivo conforme a política de segurança do Google:
- prevenção de abuso infantil, discurso de ódio, vazamento de informações pessoais etc.
Aplicação de aprendizado por reforço aprimorado e RLHF → minimização da geração de conteúdo nocivo

O Gemma 3 traz grandes avanços em multimodalidade, multilíngue e contexto longo em relação ao Gemma 2
Reforço na compreensão visual e no desempenho em matemática e código
Otimização do uso de memória para melhorar tanto o desempenho quanto a eficiência

Leituras relacionadas