12 pontos por GN⁺ 2025-04-21 | 1 comentários | Compartilhar no WhatsApp
  • O Gemma 3, anunciado no mês passado, é um modelo aberto de IA com desempenho de ponta e pode ser executado até mesmo em uma única GPU de alto desempenho, como a NVIDIA H100
  • Foi lançada uma versão leve com a técnica QAT (Quantization-Aware Training), tornando agora possível a execução também em GPUs de consumidor
  • Graças à quantização int4, o uso de memória cai drasticamente, com perda mínima de desempenho
  • Os modelos QAT podem ser executados em GPUs comuns, como RTX 3090 e RTX 4060, e podem ser usados imediatamente em Hugging Face, Ollama, LM Studio e outros
  • Também são oferecidos vários modelos PTQ da comunidade, permitindo uma escolha mais flexível

Introdução ao Gemma 3 e visão geral de desempenho

  • O mais recente modelo aberto Gemma 3, anunciado pelo Google, é um grande modelo de linguagem com excelente desempenho
  • Com precisão BF16 (ponto flutuante de 16 bits), ele pode ser executado em uma GPU NVIDIA H100 e registrou uma excelente pontuação no Chatbot Arena Elo
  • O motivo do uso de BF16 é permitir comparações justas de desempenho entre modelos, tornando possível comparar a capacidade intrínseca de cada modelo sem diferentes métodos de otimização

Quantização baseada em QAT para melhorar a acessibilidade

  • Embora modelos grandes tradicionalmente exigissem ambientes em nuvem de alto desempenho, a técnica QAT foi aplicada para viabilizar sua execução também em hardware de consumidor
  • Quantização (Quantization) reduz a precisão numérica interna do modelo para diminuir o uso de memória e acelerar a execução
  • Exemplo: ao usar o formato int4 em vez de BF16, obtém-se compressão superior a 4x

Manutenção da qualidade com QAT

  • Em vez de simples quantização pós-processamento, foi adotada a abordagem QAT (Quantization-Aware Training), que incorpora a quantização durante o treinamento
  • Durante o treinamento, as probabilidades previstas de checkpoints não quantizados foram usadas como valores-alvo por cerca de 5.000 steps
  • Com esse método, na quantização Q4_0 foi possível reduzir em 54% a queda de perplexidade

Redução revolucionária no uso de VRAM

  • O efeito de economia de VRAM causado pela quantização int4 é grande, e a redução por modelo é a seguinte:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • Esses números incluem apenas a VRAM necessária para carregar os pesos do modelo; o KV cache exigido durante a execução requer VRAM adicional

Execução em diversos dispositivos

  • Gemma 3 27B (int4): execução local possível em uma RTX 3090 (24GB VRAM)
  • Gemma 3 12B (int4): roda sem problemas até mesmo em uma RTX 4060 Laptop (8GB VRAM)
  • Gemma 3 4B, 1B: podem funcionar também em smartphones e dispositivos de baixa potência

Integração e uso simplificados

  • Os modelos QAT podem ser usados imediatamente em várias plataformas e ferramentas:

    • Ollama: execução com uma única linha de comando
    • LM Studio: download e execução em ambiente GUI
    • MLX: suporte a inferência de alta eficiência no Apple Silicon
    • Gemma.cpp: execução de alto desempenho em ambiente CPU
    • llama.cpp: integração fácil com o formato GGUF

Modelos da comunidade no Gemmaverse

  • Além dos modelos QAT oficiais, também são oferecidos vários modelos PTQ da comunidade
  • Principais contribuidores: Bartowski, Unsloth, GGML
  • Os diferentes modelos permitem escolher o melhor equilíbrio entre velocidade, tamanho e qualidade

Já dá para começar agora mesmo

  • Como um passo importante para a democratização da IA, a versão QAT do Gemma 3 pode ser executada localmente por qualquer pessoa
  • Como executar:

1 comentários

 
GN⁺ 2025-04-21
Comentários do Hacker News
  • o modelo gemma-3-27b-it-qat-4bit virou o novo modelo preferido junto com o Mistral Small 3.1 24B

    • em uso em um M2 64GB via Ollama e MLX, com baixo uso de memória e bastante folga para rodar outros apps
    • obteve bons resultados ao escrever um plugin para ferramentas de LLM
  • para perguntas pessoais de "checagem de vibe", o modelo 27B QAT 4bit forneceu respostas precisas

    • ficou surpreso com a densidade de informação contida em 13GB de pesos
    • o Gemma 3 27B da DeepMind é o modelo open source mais impressionante
  • o primeiro gráfico compara o "Elo Score" em precisão BF16, e o segundo compara o uso de VRAM

    • é uma pena não haver um gráfico comparando a qualidade entre BF16 e QAT
  • em vez do qwen2.5, está usando gemma3:27b-it-qat para tarefas do dia a dia em um Mac com 32G de memória

    • muito útil para desenvolvimento em Python, Haskell e Common Lisp
    • é satisfatório rodar modelos open source localmente
  • está rodando em uma CPU AMD 3950x de 16 núcleos, e é muito impressionante em tradução e descrição de imagens

    • para tradução, ajusta os comandos para evitar a análise do idioma de entrada
  • após baixar o QAT mais recente do gemma3:27b, o desempenho melhorou 1,47x

  • é necessário que LLMs locais sejam tratados como cidadãos de primeira classe pelas empresas

    • o primeiro gráfico pode induzir a um mal-entendido sobre o número de H100 necessário para rodar o DeepSeek r1 em FP16
  • Microsoft e Apple promoveram AI PCs e Apple Intelligence, mas, na prática, os modelos utilizáveis em GPUs de consumo só são viáveis em GPUs topo de linha

  • Gemma 3 é muito melhor que o Llama 4

    • a Meta pode acabar perdendo sua posição no mercado de LLMs
    • o tamanho dos modelos do Llama 4 é grande demais, o que limita os usuários
    • o Gemma 3 está amplamente disponível em hardwares de todos os tamanhos
  • disponível no Ollama