- Gemma 3 é a nova família de modelos abertos e leves do Google DeepMind, com tamanhos de parâmetro que variam de 1B a 27B
- Principais melhorias:
- Adição de capacidade multimodal → inclui compreensão visual
- Processamento de contexto longo → suporta até 128K tokens
- Reforço do suporte multilíngue → melhor desempenho em vários idiomas
- Otimização do uso de memória → redução do uso de memória do KV-cache ajustando a proporção entre camadas de atenção local e global (5:1)
- Treinado com Knowledge Distillation → desempenho melhor que a versão anterior
# Arquitetura do modelo
- Mantém a arquitetura Transformer somente decodificador
- Introdução de Grouped-Query Attention (GQA) → aplicação de um mecanismo de atenção mais eficiente
- Configuração da proporção de atenção local/global em 5:1 → mantendo a janela local em 1024 tokens
- Expansão da frequência base de RoPE (Rotary Position Embedding) de 10K para 1M → reforço no suporte a contexto longo
- Encoder visual: usa um encoder baseado em SigLIP (400M parâmetros)
# Modalidade de visão
- Encoder visual: opera em resolução 896 x 896
- Aplicação da técnica Pan & Scan (P&S) → permite processar imagens com proporções irregulares
- O encoder visual é compartilhado entre os modelos 4B, 12B e 27B → permanece congelado durante o treinamento
# Pré-treinamento (Pre-training)
- Treinamento realizado com Knowledge Distillation
- Número de tokens usados no treinamento:
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
- Melhoria no desempenho multilíngue → inclui dados monolíngues e paralelos
- Processo de curadoria → remoção de informações pessoais e dados sensíveis
# Treinamento com consciência de quantização (Quantization Aware Training)
- Quantização realizada após o treinamento → disponível em vários formatos, como int4 e fp8
- Economia de memória:
- Com base no modelo 27B:
- Original: 54GB → após quantização: mínimo de 14.1GB
# Ajuste por instruções (Instruction Tuning)
- Aplicação combinada de aprendizado por reforço e knowledge distillation
- Reforço em utilidade, matemática, código, raciocínio e capacidades multilíngues
- Principais técnicas usadas no aprendizado por reforço:
- BOND, WARM, WARP → aplicação de técnicas de aprendizado por reforço baseadas em recompensa
- Curadoria de dados → remoção de dados desnecessários e informações sensíveis
# Avaliação de desempenho
Resultados no LMSYS Chatbot Arena
- Modelo Gemma 3 27B IT com pontuação Elo: 1338 → desempenho entre os 10 melhores
- Registrou desempenho próximo ao GPT-4.5 e ao Grok-3-Preview
- Alta de 118 pontos em relação ao Gemma 2 27B, a versão anterior
Desempenho em benchmarks padrão
- MMLU-Pro: 67.5 (cerca de 10 pontos acima do Gemma 2)
- MATH: 89.0 (cerca de 34 pontos acima do Gemma 2)
- LiveCodeBench: 29.7 (cerca de 9 pontos acima do Gemma 2)
# Análise de desempenho conforme mudanças estruturais
- Proporção de atenção local:global → 5:1 é a ideal em desempenho e uso de memória
- Tamanho da janela deslizante → 1024 tokens mantêm a eficiência de memória sem perda de desempenho
- Redução da memória de KV cache → 15% menor em comparação com atenção exclusivamente global
# Reforço no suporte a contexto longo
- No treinamento, começou em 32K tokens → depois escalado para 128K tokens
- Ajuste da frequência de RoPE → expansão de contexto sem queda de desempenho
# Avaliação de desempenho do encoder visual
- O desempenho melhora com o aumento da resolução de entrada:
- De 256 → 896 de resolução, o desempenho sobe até 20%
- Ganho de desempenho com a técnica Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# Memória e proteção de privacidade
- Redução da taxa de memorização (Memorization Rate):
- O Gemma 3 reduz o uso de memória em comparação com o Gemma 2
- Menor risco de vazamento de informações pessoais
# Responsabilidade, segurança e proteção
- Prevenção de conteúdo nocivo conforme a política de segurança do Google:
- prevenção de abuso infantil, discurso de ódio, vazamento de informações pessoais etc.
- Aplicação de aprendizado por reforço aprimorado e RLHF → minimização da geração de conteúdo nocivo
# Conclusão
- O Gemma 3 traz grandes avanços em multimodalidade, multilíngue e contexto longo em relação ao Gemma 2
- Reforço na compreensão visual e no desempenho em matemática e código
- Otimização do uso de memória para melhorar tanto o desempenho quanto a eficiência
Ainda não há comentários.