2 pontos por GN⁺ 2025-03-13 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Gemma 3 é a nova família de modelos abertos e leves do Google DeepMind, com tamanhos de parâmetro que variam de 1B a 27B
  • Principais melhorias:
    • Adição de capacidade multimodal → inclui compreensão visual
    • Processamento de contexto longo → suporta até 128K tokens
    • Reforço do suporte multilíngue → melhor desempenho em vários idiomas
    • Otimização do uso de memória → redução do uso de memória do KV-cache ajustando a proporção entre camadas de atenção local e global (5:1)
  • Treinado com Knowledge Distillation → desempenho melhor que a versão anterior

# Arquitetura do modelo

  • Mantém a arquitetura Transformer somente decodificador
  • Introdução de Grouped-Query Attention (GQA) → aplicação de um mecanismo de atenção mais eficiente
  • Configuração da proporção de atenção local/global em 5:1 → mantendo a janela local em 1024 tokens
  • Expansão da frequência base de RoPE (Rotary Position Embedding) de 10K para 1M → reforço no suporte a contexto longo
  • Encoder visual: usa um encoder baseado em SigLIP (400M parâmetros)

# Modalidade de visão

  • Encoder visual: opera em resolução 896 x 896
  • Aplicação da técnica Pan & Scan (P&S) → permite processar imagens com proporções irregulares
  • O encoder visual é compartilhado entre os modelos 4B, 12B e 27B → permanece congelado durante o treinamento

# Pré-treinamento (Pre-training)

  • Treinamento realizado com Knowledge Distillation
  • Número de tokens usados no treinamento:
    • 1B → 2T tokens
    • 4B → 4T tokens
    • 12B → 12T tokens
    • 27B → 14T tokens
  • Melhoria no desempenho multilíngue → inclui dados monolíngues e paralelos
  • Processo de curadoria → remoção de informações pessoais e dados sensíveis

# Treinamento com consciência de quantização (Quantization Aware Training)

  • Quantização realizada após o treinamento → disponível em vários formatos, como int4 e fp8
  • Economia de memória:
    • Com base no modelo 27B:
      • Original: 54GB → após quantização: mínimo de 14.1GB

# Ajuste por instruções (Instruction Tuning)

  • Aplicação combinada de aprendizado por reforço e knowledge distillation
  • Reforço em utilidade, matemática, código, raciocínio e capacidades multilíngues
  • Principais técnicas usadas no aprendizado por reforço:
    • BOND, WARM, WARP → aplicação de técnicas de aprendizado por reforço baseadas em recompensa
  • Curadoria de dados → remoção de dados desnecessários e informações sensíveis

# Avaliação de desempenho

Resultados no LMSYS Chatbot Arena

  • Modelo Gemma 3 27B IT com pontuação Elo: 1338 → desempenho entre os 10 melhores
  • Registrou desempenho próximo ao GPT-4.5 e ao Grok-3-Preview
  • Alta de 118 pontos em relação ao Gemma 2 27B, a versão anterior

Desempenho em benchmarks padrão

  • MMLU-Pro: 67.5 (cerca de 10 pontos acima do Gemma 2)
  • MATH: 89.0 (cerca de 34 pontos acima do Gemma 2)
  • LiveCodeBench: 29.7 (cerca de 9 pontos acima do Gemma 2)

# Análise de desempenho conforme mudanças estruturais

  • Proporção de atenção local:global → 5:1 é a ideal em desempenho e uso de memória
  • Tamanho da janela deslizante → 1024 tokens mantêm a eficiência de memória sem perda de desempenho
  • Redução da memória de KV cache → 15% menor em comparação com atenção exclusivamente global

# Reforço no suporte a contexto longo

  • No treinamento, começou em 32K tokens → depois escalado para 128K tokens
  • Ajuste da frequência de RoPE → expansão de contexto sem queda de desempenho

# Avaliação de desempenho do encoder visual

  • O desempenho melhora com o aumento da resolução de entrada:
    • De 256 → 896 de resolução, o desempenho sobe até 20%
  • Ganho de desempenho com a técnica Pan & Scan:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# Memória e proteção de privacidade

  • Redução da taxa de memorização (Memorization Rate):
    • O Gemma 3 reduz o uso de memória em comparação com o Gemma 2
    • Menor risco de vazamento de informações pessoais

# Responsabilidade, segurança e proteção

  • Prevenção de conteúdo nocivo conforme a política de segurança do Google:
    • prevenção de abuso infantil, discurso de ódio, vazamento de informações pessoais etc.
  • Aplicação de aprendizado por reforço aprimorado e RLHF → minimização da geração de conteúdo nocivo

# Conclusão

  • O Gemma 3 traz grandes avanços em multimodalidade, multilíngue e contexto longo em relação ao Gemma 2
  • Reforço na compreensão visual e no desempenho em matemática e código
  • Otimização do uso de memória para melhorar tanto o desempenho quanto a eficiência

Ainda não há comentários.

Ainda não há comentários.