Modelos Gemma 3 QAT: IA de ponta chegando às GPUs de consumidor

(developers.googleblog.com)

12 pontos por GN⁺ 2025-04-21 | 1 comentários | Compartilhar no WhatsApp

O Gemma 3, anunciado no mês passado, é um modelo aberto de IA com desempenho de ponta e pode ser executado até mesmo em uma única GPU de alto desempenho, como a NVIDIA H100
Foi lançada uma versão leve com a técnica QAT (Quantization-Aware Training), tornando agora possível a execução também em GPUs de consumidor
Graças à quantização int4, o uso de memória cai drasticamente, com perda mínima de desempenho
Os modelos QAT podem ser executados em GPUs comuns, como RTX 3090 e RTX 4060, e podem ser usados imediatamente em Hugging Face, Ollama, LM Studio e outros
Também são oferecidos vários modelos PTQ da comunidade, permitindo uma escolha mais flexível

Introdução ao Gemma 3 e visão geral de desempenho

O mais recente modelo aberto Gemma 3, anunciado pelo Google, é um grande modelo de linguagem com excelente desempenho
Com precisão BF16 (ponto flutuante de 16 bits), ele pode ser executado em uma GPU NVIDIA H100 e registrou uma excelente pontuação no Chatbot Arena Elo
O motivo do uso de BF16 é permitir comparações justas de desempenho entre modelos, tornando possível comparar a capacidade intrínseca de cada modelo sem diferentes métodos de otimização

Quantização baseada em QAT para melhorar a acessibilidade

Embora modelos grandes tradicionalmente exigissem ambientes em nuvem de alto desempenho, a técnica QAT foi aplicada para viabilizar sua execução também em hardware de consumidor
Quantização (Quantization) reduz a precisão numérica interna do modelo para diminuir o uso de memória e acelerar a execução
Exemplo: ao usar o formato int4 em vez de BF16, obtém-se compressão superior a 4x

Manutenção da qualidade com QAT

Em vez de simples quantização pós-processamento, foi adotada a abordagem QAT (Quantization-Aware Training), que incorpora a quantização durante o treinamento
Durante o treinamento, as probabilidades previstas de checkpoints não quantizados foram usadas como valores-alvo por cerca de 5.000 steps
Com esse método, na quantização Q4_0 foi possível reduzir em 54% a queda de perplexidade

Redução revolucionária no uso de VRAM

O efeito de economia de VRAM causado pela quantização int4 é grande, e a redução por modelo é a seguinte:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
Esses números incluem apenas a VRAM necessária para carregar os pesos do modelo; o KV cache exigido durante a execução requer VRAM adicional

Execução em diversos dispositivos

Gemma 3 27B (int4): execução local possível em uma RTX 3090 (24GB VRAM)
Gemma 3 12B (int4): roda sem problemas até mesmo em uma RTX 4060 Laptop (8GB VRAM)
Gemma 3 4B, 1B: podem funcionar também em smartphones e dispositivos de baixa potência

Integração e uso simplificados

Os modelos QAT podem ser usados imediatamente em várias plataformas e ferramentas:
- Ollama: execução com uma única linha de comando
- LM Studio: download e execução em ambiente GUI
- MLX: suporte a inferência de alta eficiência no Apple Silicon
- Gemma.cpp: execução de alto desempenho em ambiente CPU
- llama.cpp: integração fácil com o formato GGUF

Modelos da comunidade no Gemmaverse

Além dos modelos QAT oficiais, também são oferecidos vários modelos PTQ da comunidade
Principais contribuidores: Bartowski, Unsloth, GGML
Os diferentes modelos permitem escolher o melhor equilíbrio entre velocidade, tamanho e qualidade

Já dá para começar agora mesmo

Como um passo importante para a democratização da IA, a versão QAT do Gemma 3 pode ser executada localmente por qualquer pessoa
Como executar:
- PC: Ollama
- Download do modelo: Hugging Face, Kaggle
- Execução em dispositivos móveis: usar Google AI Edge

1 comentários

GN⁺ 2025-04-21

Comentários do Hacker News

o modelo gemma-3-27b-it-qat-4bit virou o novo modelo preferido junto com o Mistral Small 3.1 24B
- em uso em um M2 64GB via Ollama e MLX, com baixo uso de memória e bastante folga para rodar outros apps
- obteve bons resultados ao escrever um plugin para ferramentas de LLM
para perguntas pessoais de "checagem de vibe", o modelo 27B QAT 4bit forneceu respostas precisas
- ficou surpreso com a densidade de informação contida em 13GB de pesos
- o Gemma 3 27B da DeepMind é o modelo open source mais impressionante
o primeiro gráfico compara o "Elo Score" em precisão BF16, e o segundo compara o uso de VRAM
- é uma pena não haver um gráfico comparando a qualidade entre BF16 e QAT
em vez do qwen2.5, está usando gemma3:27b-it-qat para tarefas do dia a dia em um Mac com 32G de memória
- muito útil para desenvolvimento em Python, Haskell e Common Lisp
- é satisfatório rodar modelos open source localmente
está rodando em uma CPU AMD 3950x de 16 núcleos, e é muito impressionante em tradução e descrição de imagens
- para tradução, ajusta os comandos para evitar a análise do idioma de entrada
após baixar o QAT mais recente do gemma3:27b, o desempenho melhorou 1,47x
é necessário que LLMs locais sejam tratados como cidadãos de primeira classe pelas empresas
- o primeiro gráfico pode induzir a um mal-entendido sobre o número de H100 necessário para rodar o DeepSeek r1 em FP16
Microsoft e Apple promoveram AI PCs e Apple Intelligence, mas, na prática, os modelos utilizáveis em GPUs de consumo só são viáveis em GPUs topo de linha
Gemma 3 é muito melhor que o Llama 4
- a Meta pode acabar perdendo sua posição no mercado de LLMs
- o tamanho dos modelos do Llama 4 é grande demais, o que limita os usuários
- o Gemma 3 está amplamente disponível em hardwares de todos os tamanhos
disponível no Ollama

Modelos Gemma 3 QAT: IA de ponta chegando às GPUs de consumidor

Introdução ao Gemma 3 e visão geral de desempenho

Quantização baseada em QAT para melhorar a acessibilidade

Manutenção da qualidade com QAT

Redução revolucionária no uso de VRAM

Execução em diversos dispositivos

Integração e uso simplificados

Modelos da comunidade no Gemmaverse

Já dá para começar agora mesmo

Leituras relacionadas

1 comentários

Comentários do Hacker News