Gemma 4 12B: modelo multimodal sem encoder integrado

(blog.google)

10 pontos por GN⁺ 2026-06-04 | 5 comentários | Compartilhar no WhatsApp

Gemma 4 12B é um modelo de porte intermediário projetado para executar inteligência multimodal com agentes em notebooks, preenchendo a lacuna entre o E4B, voltado para edge, e o 26B MoE, mais avançado
Com uma arquitetura integrada sem encoder, adota a abordagem de enviar entradas de imagem e áudio diretamente para o backbone do LLM, sem um encoder multimodal separado, para reduzir latência e uso de memória
Embora seu desempenho em benchmarks padrão se aproxime do modelo maior 26B MoE, o uso total de memória fica abaixo da metade, permitindo execução local em notebooks de consumo com 16 GB de RAM ou VRAM/memória unificada
O Gemma 4 12B é o primeiro modelo de porte intermediário da família Gemma a oferecer entrada nativa de áudio e busca reduzir a latência com drafters de Multi-Token Prediction
Os modelos Gemma 4 já ultrapassaram 150 milhões de downloads, e o Gemma 4 12B amplia o alcance do desenvolvimento de agentes multimodais locais com licença Apache 2.0 e suporte aos principais caminhos de ferramentas e implantação

Principais características

O Gemma 4 12B foi projetado para levar inteligência multimodal de alto desempenho diretamente aos notebooks, combinando eficiência mobile-first com raciocínio avançado
Ele se posiciona entre o E4B, voltado para edge, e o mais avançado 26B Mixture of Experts (MoE), reunindo capacidades fortes dentro de uma pegada de memória reduzida
Os principais destaques são os seguintes
- arquitetura integrada que envia entradas de visão e áudio diretamente ao backbone do LLM, sem encoder multimodal
- desempenho em benchmarks próximo ao modelo 26B e suporte a raciocínio em múltiplas etapas e fluxos de trabalho com agentes
- prontidão para notebooks, com execução local usando apenas 16 GB de VRAM ou memória unificada
- licença Apache 2.0 e suporte ao ecossistema de desenvolvedores
- redução de latência com drafters de Multi-Token Prediction (MTP)

Como funciona o processamento multimodal sem encoder

Modelos multimodais convencionais geralmente convertem imagem e áudio com encoders separados e depois passam essas representações ao modelo de linguagem
O Gemma 4 12B foi treinado para integrar diretamente entradas de áudio e visão, evitando o aumento de latência e consumo de memória causado por encoders separados
No processamento visual, o encoder de visão do Gemma 4 é substituído por um módulo leve de embeddings composto por uma única multiplicação de matriz, embeddings posicionais e normalização, deixando o backbone do LLM responsável pelo processamento visual
No processamento de áudio, o encoder de áudio é removido por completo, e o sinal bruto de áudio é projetado no mesmo espaço dimensional dos tokens de texto
Uma explicação mais detalhada da arquitetura para desenvolvedores pode ser encontrada no Gemma 4 12B Developer Guide

Caminhos para começar a usar

É possível experimentar com alguns cliques no LM Studio, Ollama, Google AI Edge Gallery App, app Google AI Edge Eloquent e LiteRT-LM CLI
Checkpoints pré-treinados e instruction-tuned podem ser baixados no Hugging Face e no Kaggle
Para integração e treinamento, é possível usar a developer documentation e o quick start notebook
O pipeline de inferência local pode ser implementado com Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, e é possível fazer fine-tuning eficiente com Unsloth
O Skills Repository oficial é uma biblioteca de skills projetada para permitir que agentes sejam desenvolvidos com os recursos mais recentes do Gemma
Endpoints de produção podem ser implantados no Google Cloud por meio do Gemini Enterprise Agent Platform Model Garden, Cloud Run e GKE

5 comentários

hmmhmmhm 2026-06-04

Comparado ao gemma4 26b a4b, a velocidade realmente deixa um pouco a desejar também... Será que pode sair uma versão a4b?

loblue 2026-06-04

Acho que vou tentar rodar no meu MacBook M1 com 32 GB de RAM. Sendo 12B, parece que vai dar certo.

kaydash 2026-06-04

Não é algo que acabou de sair, então por que está sendo mencionado agora?

winterjung 2026-06-04

Antes, havia apenas os modelos e e 26b e 31b, e o modelo Gemma 4 12b foi lançado agora.

GN⁺ 2026-06-04

Comentários do Hacker News

Rodei o modelo quantizado em Q4 no llama.cpp e o coloquei no meu próprio benchmark de vibe coding do Campo Minado: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
O resultado foi bom, mas tive que corrigir manualmente algumas vezes erros de sintaxe estranhos e pequenos, como adicionar um parêntese de fechamento extra ou tentar separar definições de função com vírgulas
Levando essas pistas em conta, é um modelo local de programação decente, e só pelo output ele fica mais ou menos no nível do GPT-4.1 lançado 14 meses atrás: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
Em uma placa de consumidor com 12GB de VRAM, entregou 5 tokens/s em GGUF de 4 bits; é lento para programação interativa, mas ainda assim um modelo bem utilizável
É interessante que, em pouco mais de um ano, um modelo de 12 bilhões de parâmetros tenha quase alcançado, em um benchmark específico, o desempenho de programação que era visto como nível GPT-4.1
Lista dos vários modelos testados: https://senko.net/vibecode-bench/
- Provavelmente não é um modelo treinado para programação. Tem entrada de áudio e visão, tem só 12B, e programação não é mencionada em nenhum lugar do anúncio
  O desempenho geral em programação provavelmente é inferior ao de outros modelos pequenos como Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B e gpt-oss-20b
  Em um notebook com 16GB, o Qwen 3.5 9B é claramente o mais forte, e o topo entre os pequenos modelos de programação é o Gemma 4 31B, mas ele é dense, então precisa de cerca de 48GB de memória unificada para usar todo o contexto
- Se em uma placa com 12GB de VRAM ele está gerando 5 tokens/s, parece que está usando modo híbrido, misturando CPU e RAM do sistema
  Essa velocidade é o tipo de número esperado ao rodar um modelo desse tamanho em 4 bits com largura de banda de RAM DDR4, e em uma GPU Nvidia de consumo com 12GB como RTX 2080 ou RTX 3060, o backend CUDA do llama.cpp deveria passar de 20 tokens/s
- A maior vitória em programação parece ter sido a capacidade de raciocínio. Por isso um modelo pequeno pode empatar com o desempenho de programação do GPT-4.1, mas em conhecimento geral de mundo o GPT-4.1 maior provavelmente ainda vence
- Fico me perguntando se os problemas de sintaxe poderiam ser resolvidos com fine-tuning ou outros ajustes de parâmetros. Esse tipo de erro é bem irritante
A grande história aqui é a arquitetura sem encoder, mas ainda não entendi completamente
A explicação de que “o encoder de visão do Gemma 4 foi substituído por um módulo leve de embedding composto por uma única multiplicação de matriz, embedding posicional e normalização” tecnicamente ainda é codificação, então parece significar que não usa um modelo dedicado como o SigLIP
O guia para desenvolvedores dá mais detalhes, falando em uma camada de 35M, e fico curioso se isso é robusto o suficiente: https://developers.googleblog.com/gemma-4-12b-the-developer-...
A afirmação de que “pode rodar localmente em notebooks de consumidor com 16GB de RAM” parece presumir quantização e, considerando a perda de qualidade, pode ser um pouco enganosa
- Dentro da página para desenvolvedores há um texto que explica bem a arquitetura sem encoder: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- Isso é basicamente fusão inicial
  A FAIR já fazia isso há 2 anos: https://arxiv.org/abs/2405.09818
  Desde então eu estava esperando a liberação de modelos assim, mas o ponto irritante é que o Chameleon, com o mesmo princípio, fazia até saída multimodal, enquanto este modelo aceita apenas entrada
  Fico curioso sobre como fizeram o pré-treinamento sem saída multimodal, e nem sei se ele não suporta geração de imagem porque isso foi removido
- No sentido comum, “codificação” está correto, mas aqui parece que querem dizer que não existe uma rede neural encoder
- Acho que a verdadeira grande história é o app Gallery: https://developers.google.com/edge/gallery
  Muita gente tem um Mac com 16GB, inclusive jornalistas, e qualquer pessoa pode baixar o app, instalar o modelo e começar a mexer imediatamente
  Acho que os jornalistas já deveriam começar a fazer perguntas sobre as perspectivas de receita com consumidores da OpenAI
  Sou bem cético em relação a IA, mas para ser um cético bem informado experimentei um pouco trabalho de agente e geração de CAD-para-imagem com modelos locais, e gostei bastante do modelo Gemma 26B
  Estou usando isso para aprender os fundamentos e me acostumar com o OpenCode sem criar dependência de nuvem; ele também escreve código muito bem e ajuda a aprender no ritmo que eu quero
  Se este modelo de 12B chegar sequer à metade do que a divulgação promete, isso já coloca em dúvida, ao menos no curto prazo, o modelo de negócios em nuvem voltado ao consumidor
  Não está claro se este app usa MTP drafter, e ainda não consegui fazer isso funcionar diretamente no Gemma, mas o suporte embutido a MTP do Qwen 3.6 funcionou muito bem no LM Studio
- Em 12B, isso dá 12GB a 8 bits por parâmetro, com perda quase nula, e 6GB a 4 bits por parâmetro, algo normalmente visto como “bem próximo”
  Antes de focar demais na quantização, é melhor ver primeiro quão bom é o modelo base
Agora estamos entrando em um jogo de ciclo fechado. O Google não precisa dos outros para acelerar seus próprios modelos, e isso está bem próximo do seu negócio principal
É surpreendente e ao mesmo tempo não surpreendente que eles continuem desenvolvendo essas otimizações. Como a evolução do silício e das arquiteturas de CPU, tudo foi sendo encolhido e fortalecido ao mesmo tempo, e parece que a IA também ficará 100 vezes mais eficiente com o tempo
Em algum momento haverá limites, mas nos próximos 30 anos talvez avancemos mais do que nos últimos 30, e possamos acabar vivendo em um mundo futurista, meio Blade Runner, em que edição genética conserta células envelhecidas e órgãos e cura o câncer

Acho que, depois da nossa geração, as pessoas vão viver mantendo mobilidade estável até os 125 anos, e no fim talvez até passem a pensar em uma vida útil de 1000 anos.
Olhando 30 anos para trás e 30 para frente, parece que tudo vai mudar de um jeito absurdo. Que Deus nos proteja.

Este é claramente um momento interessante, mas, do ponto de vista do avanço de ponta, ainda restam muitos frutos mais baixos para colher
Só que há um limite para o “conhecimento” que dá para colocar em um número pequeno de parâmetros
Imagino que o começo do rádio, da aviação e até dos microcomputadores deva ter parecido assim
Escolhi priorizar a otimização da longevidade acima de carreira ou hobbies. Quero ver o futuro, e essa onda de IA é realmente fascinante
Não é bem assim
Modelos grandes ainda estão muito à frente, e até o Gemma 31B é melhor no geral do que o 12B, mas não dá para se iludir achando que ele chegou perto dos modelos grandes
Certamente ainda há espaço para otimização, mas, em tarefas complexas, a precisão exige gradientes pequenos e visíveis que possam ser capturados no treinamento e seguidos na inferência
Por exemplo, se você mandar não escrever código e fizer uma pergunta de programação, o Gemma ainda vai escrever código, enquanto Gemini ou Claude captam essa nuance e seguem melhor a instrução
Tenho curiosidade sobre a razão comercial de o Google divulgar modelos abertos. Sou grato por esse tipo de divulgação, mas quero entender como isso se encaixa no panorama maior para uma empresa com fins lucrativos
Fico pensando se eles não estão ajudando concorrentes a subir em cima de uma tecnologia nova que eles mesmos desenvolveram
Queria saber se é só boa vontade ou marketing, ou se existe alguma estratégia que estou deixando passar
- Um grande motivo para laboratórios de fronteira conseguirem 80% de margem bruta em inferência é que eles controlam o recurso escasso que são os modelos de fronteira
  Se a inferência se tornar popular e valiosa o bastante para essas empresas gerarem bilhões de dólares em lucro, elas podem usar esse lucro para criar produtos e plataformas substitutos que cortem o Google da relação com o cliente
  O Google já tem um dos maiores negócios do mundo com 80% de margem bruta, e todo mundo quer uma parte disso
  Se oferecer inferência de fronteira perto do custo e liberar em open source os modelos abaixo da fronteira para comoditizar os modelos, fica mais difícil para os laboratórios de fronteira manterem margens brutas altas de forma contínua na inferência
  Isso é estratégico
- Esse modelo não substitui um produto comercial próprio de receita, mas viabiliza atividade de desenvolvimento e abre conversa com empresas que começam com esse modelo e depois querem um pouco mais
  Hoje a minha empresa também está apostando tudo em vários produtos de plataforma, e a Microsoft também disse ontem que a meta é “Unmetered intelligence”
  Há muita coisa que modelos locais pequenos tornam possível, e essas coisas viram parte de uma stack que gera receita em outras camadas
- Android e Chrome precisam de recursos de IA on-device. O Google não consegue manter esses pesos trancados como faz com machine learning no servidor
  De qualquer forma, alguém acabaria extraindo os pesos, então é mais fácil simplesmente liberar em open source e oficializar isso
- O Google é uma das poucas opções de integração vertical em IA. Tem dados, modelos, serviços de nuvem, silício de baixo nível (TPU), uso interno, uso para consumidores, uso B2B e canais de distribuição (navegador e mobile)
  Quanto mais a adoção de IA cresce, mais isso sobe junto, e quanto mais as pessoas escolhem soluções do Google, melhor fica para ele
  Todo token enviado para um modelo do Google, seja grátis ou pago, pressiona concorrentes a gastar fortunas para continuar no estado da arte
- Se eu fosse um laboratório de IA, seria inevitável querer uma equipe de pesquisa nessa área. É onde dá para iterar e produzir melhorias com mais facilidade, e depois refletir isso em modelos de fronteira maiores
  A questão é se o modelo deve ser publicado ou usado só para P&D puro
  Como outros lugares já estão publicando modelos de qualidade parecida, não parece que entrar nessa tendência seja um tiro no próprio pé
  A canibalização adicional é praticamente zero, e o ganho de reputação provavelmente vale a pena
O processamento de imagens é péssimo. Fiz vários testes com o Qwen 3.5 0.8B e, apesar de ter só 7% do tamanho, o Qwen ganhou toda vez, e o Gemma muitas vezes errou completamente
Dei até uma imagem simples com “This is a test” escrito, e ele ficou 6 minutos tentando analisar antes de falhar, enquanto o Qwen 3.5 0.8B acertou com confiança em menos de 1 segundo
Pode ser que a quantização Q6 que recebi esteja quebrada, ou que seja problema do LM Studio, mas, de qualquer forma, o desempenho do 0.8B é surpreendente em comparação
- Parece que o Google colocou guardrails mais fortes ou em maior quantidade do que a Alibaba, e isso acaba confundindo o modelo pequeno
  Com os modelos Gemma3 também acontecia bastante de eles se recusarem a descrever uma imagem alegando exposição ou cena sexual, e eu nunca entendi bem o sentido desse comportamento
- Sempre achei que os modelos Gemma fossem muito piores que o Qwen em tarefas de visão, então isso não é exatamente novidade
Independentemente da mudança de arquitetura, isso parece responder por que havia um vazio tão estranho entre 4B e 26B na linha de modelos pré-treinados do Gemma4
Um modelo que cabe com folga em 16GB de VRAM, ainda com margem de contexto, é uma atualização bem-vinda
Tirando multimídia, fico curioso sobre o quanto isso é melhor do que o modelo de 1,5 bit baseado em qwen2.5 da prismml
Fico curioso sobre casos de uso para modelos pequenos como este. Alguém que usa modelos desse porte no dia a dia poderia compartilhar experiências reais?
- Eu rodo vLLM numa máquina Linux no porão e conecto via Tailscale para usar modelos pequenos em várias tarefas
  Coisas como passar documentos escaneados para texto formatado, gerar legendas/descrições de imagens e classificar adequação do conteúdo (incluindo prevenção de spam), ou combinar documentos com páginas relevantes da Wikipedia para etiquetagem
  Não uso como um modelo de fronteira; eu quebro tudo em microtarefas, de modo que cada prompt tenha um objetivo claro
  Também uso bastante código de cola para fazer o fluxo completo funcionar, e essas tarefas já eram coisas que eu fazia antes mesmo dos LLMs
  Com LLMs, consegui reduzir código complexo e acrescentar modelos para obter resultados melhores
  Uso modelos locais por custo e controle. Eu já tinha workstation e GPU, então o custo operacional é basicamente só eletricidade
  Também já usei modelos proprietários da OpenAI e do Google, mas já tive ferramentas abaladas quando o modelo de que dependiam foi descontinuado. Se os pesos ficam salvos localmente, essa preocupação desaparece
- Num app de ditado que fiz, uso modelo local para lapidar o texto e corrigir gramática. Foi muito fácil de fazer, e agora estou expandindo para captura e resumo de atas de reunião, tudo processado on-device
  Outro dia também vi um app pequeno que olhava screenshots e renomeava arquivos com base no conteúdo do arquivo
  Há muitos exemplos pequenos assim, e para muitos casos de uso não é necessário nenhum modelo de fronteira
Usei o Gemma para alguns anos de revisão e classificação de textos online. Apliquei a cerca de 5 milhões de palavras que escrevi em fóruns de projetos open source dos quais participo, no HN, Reddit etc., e como os textos são meus, também experimentei treinamento com LoRA sem preocupação ética com a origem dos dados
Agora estou usando para busca na web e extração de dados sobre setores específicos
É inteligente o bastante para encontrar empresas daquele setor em uma cidade determinada, ler seus sites, extrair endereço e telefone, remover duplicatas e até cruzar com outras fontes para validação
O Gemma 4 fez julgamentos melhores, ou ao menos mais sutis, que o Gemini 2.5 Flash, e o novo Gemini 3.5 Flash é muito bom, mas absurdamente caro
Se você não precisa de desempenho extremamente rápido, um Gemma 4 self-hosted vence em várias tarefas
O Qwen 3.6 27B também é surpreendentemente bom em encontrar bugs de segurança para o seu tamanho. Supera vários modelos maiores e chega perto do Gemini Pro 3.1, mas o Gemini 3.5 Flash é, de forma surpreendente, claramente melhor
O custo é só a eletricidade, minha energia é barata e 100% renovável, então posso usar mais amplamente do que modelos hospedados
Mesmo assim, o dinheiro mais bem gasto ainda é comprando tokens que os provedores estão vendendo barato quase como subsídio
Em vez de comprar hardware para rodar modelos acima de 30GB, hoje faz mais sentido usar assinaturas de 100 dólares do Claude ou do Codex para acessar os melhores modelos com grande desconto
Se você precisa de uma API para automação, DeepSeek/MiMo custa uma ou duas ordens de magnitude menos que os melhores modelos da Anthropic ou da OpenAI
Gastei cerca de 4.000 dólares em duas máquinas de inferência, e com esse dinheiro daria para comprar tokens desses modelos pequenos para vários anos
Ainda assim, eu gosto de mexer com hardware, então isso por si só já compensa, e recuperar ao menos parte do valor é um bônus
Se os principais provedores pararem de queimar dinheiro com tokens subsidiados e começarem a cobrar de verdade, a conta pode mudar, e talvez eu tenha tido sorte de comprar o equipamento antes de o preço da RAM subir 2 ou 3 vezes
Se você não pretende aprender a tecnologia ou fazer experimentos de treino por conta própria, na maioria dos casos provavelmente é melhor nem tentar rodar localmente
- Modelos pequenos têm um nicho muito bom em tarefas específicas. Na parte de processamento de documentos do app desktop que estou desenvolvendo, uso um modelo Phi-4 fine-tunado, menor que este e que cabe em cerca de 3,5GB de RAM, não VRAM
  Se você tiver uma ideia muito específica de uso de modelos locais, dá para fazer funcionar bem mesmo sem placa de vídeo ou NPU
  Mas é preciso restringir o uso de forma extrema. Não é bom como chatbot de uso geral e, embora eu goste de LLMs locais, nesse caso eu usaria um modelo hospedado mais recente
- Não conheço este modelo, mas o 31B logo acima estou usando no OpenCode como assistente de programação com agentes
  Se é algo fácil o bastante para deixar com o Sonnet, também deixo com o Gemma 4, e ele está indo muito bem
  Sou positivamente surpreendido com muito mais frequência do que negativamente
  Não é raro eu trocar do Gemma 4 para o Opus 4.7 porque o Gemma falhou, e o Opus também falhar
É uma atualização bem boa. Mas o vídeo de demonstração é meio engraçado
O testador pede para o modelo transformar o release em marcadores, e ele faz isso bem
Em seguida pede um rascunho de email com esse conteúdo, e o modelo, sem ninguém pedir, transforma os marcadores em parágrafos e desfaz o que tinha acabado de fazer direito
Não sei se existe alguma etiqueta que proíba marcadores em emails
Publiquei rapidamente alguns benchmarks relacionados a alemão para conferir. No resultado específico de alemão do CohereLabs/include-base-44, o Gemma 4 12B fica em torno de 0,618
Gemma 4 26B (A4B MoE) fica em 0,647, Qwen 3 14B em 0,621, Gemma 4 12B em 0,618, Ministral 14B 2512 em 0,604 e Gemma 3 12B em 0,547
A diferença entre Qwen 3 14B e Gemma 4 12B está dentro da margem de variação aleatória, e em execuções repetidas já apareceu exatamente a mesma pontuação
O próximo degrau, o Gemma 4 31B, marca 0,676 nesse benchmark, e o Qwen 3 14B com raciocínio permitido também chega a 0,676
Amanhã pretendo rodar também um benchmark anti-cheating para ver se o Qwen continua na frente