Modelos Gemma 3 QAT: IA de ponta chegando às GPUs de consumidor
(developers.googleblog.com)- O Gemma 3, anunciado no mês passado, é um modelo aberto de IA com desempenho de ponta e pode ser executado até mesmo em uma única GPU de alto desempenho, como a NVIDIA H100
- Foi lançada uma versão leve com a técnica QAT (Quantization-Aware Training), tornando agora possível a execução também em GPUs de consumidor
- Graças à quantização int4, o uso de memória cai drasticamente, com perda mínima de desempenho
- Os modelos QAT podem ser executados em GPUs comuns, como RTX 3090 e RTX 4060, e podem ser usados imediatamente em Hugging Face, Ollama, LM Studio e outros
- Também são oferecidos vários modelos PTQ da comunidade, permitindo uma escolha mais flexível
Introdução ao Gemma 3 e visão geral de desempenho
- O mais recente modelo aberto Gemma 3, anunciado pelo Google, é um grande modelo de linguagem com excelente desempenho
- Com precisão BF16 (ponto flutuante de 16 bits), ele pode ser executado em uma GPU NVIDIA H100 e registrou uma excelente pontuação no Chatbot Arena Elo
- O motivo do uso de BF16 é permitir comparações justas de desempenho entre modelos, tornando possível comparar a capacidade intrínseca de cada modelo sem diferentes métodos de otimização
Quantização baseada em QAT para melhorar a acessibilidade
- Embora modelos grandes tradicionalmente exigissem ambientes em nuvem de alto desempenho, a técnica QAT foi aplicada para viabilizar sua execução também em hardware de consumidor
- Quantização (Quantization) reduz a precisão numérica interna do modelo para diminuir o uso de memória e acelerar a execução
- Exemplo: ao usar o formato int4 em vez de BF16, obtém-se compressão superior a 4x
Manutenção da qualidade com QAT
- Em vez de simples quantização pós-processamento, foi adotada a abordagem QAT (Quantization-Aware Training), que incorpora a quantização durante o treinamento
- Durante o treinamento, as probabilidades previstas de checkpoints não quantizados foram usadas como valores-alvo por cerca de 5.000 steps
- Com esse método, na quantização Q4_0 foi possível reduzir em 54% a queda de perplexidade
Redução revolucionária no uso de VRAM
-
O efeito de economia de VRAM causado pela quantização int4 é grande, e a redução por modelo é a seguinte:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
Esses números incluem apenas a VRAM necessária para carregar os pesos do modelo; o KV cache exigido durante a execução requer VRAM adicional
Execução em diversos dispositivos
- Gemma 3 27B (int4): execução local possível em uma RTX 3090 (24GB VRAM)
- Gemma 3 12B (int4): roda sem problemas até mesmo em uma RTX 4060 Laptop (8GB VRAM)
- Gemma 3 4B, 1B: podem funcionar também em smartphones e dispositivos de baixa potência
Integração e uso simplificados
-
Os modelos QAT podem ser usados imediatamente em várias plataformas e ferramentas:
- Ollama: execução com uma única linha de comando
- LM Studio: download e execução em ambiente GUI
- MLX: suporte a inferência de alta eficiência no Apple Silicon
- Gemma.cpp: execução de alto desempenho em ambiente CPU
- llama.cpp: integração fácil com o formato GGUF
Modelos da comunidade no Gemmaverse
- Além dos modelos QAT oficiais, também são oferecidos vários modelos PTQ da comunidade
- Principais contribuidores: Bartowski, Unsloth, GGML
- Os diferentes modelos permitem escolher o melhor equilíbrio entre velocidade, tamanho e qualidade
Já dá para começar agora mesmo
- Como um passo importante para a democratização da IA, a versão QAT do Gemma 3 pode ser executada localmente por qualquer pessoa
- Como executar:
- PC: Ollama
- Download do modelo: Hugging Face, Kaggle
- Execução em dispositivos móveis: usar Google AI Edge
1 comentários
Comentários do Hacker News
o modelo gemma-3-27b-it-qat-4bit virou o novo modelo preferido junto com o Mistral Small 3.1 24B
para perguntas pessoais de "checagem de vibe", o modelo 27B QAT 4bit forneceu respostas precisas
o primeiro gráfico compara o "Elo Score" em precisão BF16, e o segundo compara o uso de VRAM
em vez do qwen2.5, está usando gemma3:27b-it-qat para tarefas do dia a dia em um Mac com 32G de memória
está rodando em uma CPU AMD 3950x de 16 núcleos, e é muito impressionante em tradução e descrição de imagens
após baixar o QAT mais recente do gemma3:27b, o desempenho melhorou 1,47x
é necessário que LLMs locais sejam tratados como cidadãos de primeira classe pelas empresas
Microsoft e Apple promoveram AI PCs e Apple Intelligence, mas, na prática, os modelos utilizáveis em GPUs de consumo só são viáveis em GPUs topo de linha
Gemma 3 é muito melhor que o Llama 4
disponível no Ollama