Gemma 4 12B: modelo multimodal sem encoder integrado
(blog.google)- Gemma 4 12B é um modelo de porte intermediário projetado para executar inteligência multimodal com agentes em notebooks, preenchendo a lacuna entre o E4B, voltado para edge, e o 26B MoE, mais avançado
- Com uma arquitetura integrada sem encoder, adota a abordagem de enviar entradas de imagem e áudio diretamente para o backbone do LLM, sem um encoder multimodal separado, para reduzir latência e uso de memória
- Embora seu desempenho em benchmarks padrão se aproxime do modelo maior 26B MoE, o uso total de memória fica abaixo da metade, permitindo execução local em notebooks de consumo com 16 GB de RAM ou VRAM/memória unificada
- O Gemma 4 12B é o primeiro modelo de porte intermediário da família Gemma a oferecer entrada nativa de áudio e busca reduzir a latência com drafters de Multi-Token Prediction
- Os modelos Gemma 4 já ultrapassaram 150 milhões de downloads, e o Gemma 4 12B amplia o alcance do desenvolvimento de agentes multimodais locais com licença Apache 2.0 e suporte aos principais caminhos de ferramentas e implantação
Principais características
- O Gemma 4 12B foi projetado para levar inteligência multimodal de alto desempenho diretamente aos notebooks, combinando eficiência mobile-first com raciocínio avançado
- Ele se posiciona entre o E4B, voltado para edge, e o mais avançado 26B Mixture of Experts (MoE), reunindo capacidades fortes dentro de uma pegada de memória reduzida
- Os principais destaques são os seguintes
- arquitetura integrada que envia entradas de visão e áudio diretamente ao backbone do LLM, sem encoder multimodal
- desempenho em benchmarks próximo ao modelo 26B e suporte a raciocínio em múltiplas etapas e fluxos de trabalho com agentes
- prontidão para notebooks, com execução local usando apenas 16 GB de VRAM ou memória unificada
- licença Apache 2.0 e suporte ao ecossistema de desenvolvedores
- redução de latência com drafters de Multi-Token Prediction (MTP)
Como funciona o processamento multimodal sem encoder
- Modelos multimodais convencionais geralmente convertem imagem e áudio com encoders separados e depois passam essas representações ao modelo de linguagem
- O Gemma 4 12B foi treinado para integrar diretamente entradas de áudio e visão, evitando o aumento de latência e consumo de memória causado por encoders separados
- No processamento visual, o encoder de visão do Gemma 4 é substituído por um módulo leve de embeddings composto por uma única multiplicação de matriz, embeddings posicionais e normalização, deixando o backbone do LLM responsável pelo processamento visual
- No processamento de áudio, o encoder de áudio é removido por completo, e o sinal bruto de áudio é projetado no mesmo espaço dimensional dos tokens de texto
- Uma explicação mais detalhada da arquitetura para desenvolvedores pode ser encontrada no Gemma 4 12B Developer Guide
Caminhos para começar a usar
- É possível experimentar com alguns cliques no LM Studio, Ollama, Google AI Edge Gallery App, app Google AI Edge Eloquent e LiteRT-LM CLI
- Checkpoints pré-treinados e instruction-tuned podem ser baixados no Hugging Face e no Kaggle
- Para integração e treinamento, é possível usar a developer documentation e o quick start notebook
- O pipeline de inferência local pode ser implementado com Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, e é possível fazer fine-tuning eficiente com Unsloth
- O Skills Repository oficial é uma biblioteca de skills projetada para permitir que agentes sejam desenvolvidos com os recursos mais recentes do Gemma
- Endpoints de produção podem ser implantados no Google Cloud por meio do Gemini Enterprise Agent Platform Model Garden, Cloud Run e GKE
3 comentários
Não é algo que acabou de sair, então por que está sendo mencionado agora?
Antes, havia apenas os modelos e e 26b e 31b, e o modelo Gemma 4 12b foi lançado agora.
Comentários do Hacker News
llama.cppe o coloquei no meu próprio benchmark de vibe coding do Campo Minado: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...O resultado foi bom, mas tive que corrigir manualmente algumas vezes erros de sintaxe estranhos e pequenos, como adicionar um parêntese de fechamento extra ou tentar separar definições de função com vírgulas
Levando essas pistas em conta, é um modelo local de programação decente, e só pelo output ele fica mais ou menos no nível do GPT-4.1 lançado 14 meses atrás: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
Em uma placa de consumidor com 12GB de VRAM, entregou 5 tokens/s em GGUF de 4 bits; é lento para programação interativa, mas ainda assim um modelo bem utilizável
É interessante que, em pouco mais de um ano, um modelo de 12 bilhões de parâmetros tenha quase alcançado, em um benchmark específico, o desempenho de programação que era visto como nível GPT-4.1
Lista dos vários modelos testados: https://senko.net/vibecode-bench/
O desempenho geral em programação provavelmente é inferior ao de outros modelos pequenos como Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B e gpt-oss-20b
Em um notebook com 16GB, o Qwen 3.5 9B é claramente o mais forte, e o topo entre os pequenos modelos de programação é o Gemma 4 31B, mas ele é dense, então precisa de cerca de 48GB de memória unificada para usar todo o contexto
Essa velocidade é o tipo de número esperado ao rodar um modelo desse tamanho em 4 bits com largura de banda de RAM DDR4, e em uma GPU Nvidia de consumo com 12GB como RTX 2080 ou RTX 3060, o backend CUDA do
llama.cppdeveria passar de 20 tokens/sA explicação de que “o encoder de visão do Gemma 4 foi substituído por um módulo leve de embedding composto por uma única multiplicação de matriz, embedding posicional e normalização” tecnicamente ainda é codificação, então parece significar que não usa um modelo dedicado como o SigLIP
O guia para desenvolvedores dá mais detalhes, falando em uma camada de 35M, e fico curioso se isso é robusto o suficiente: https://developers.googleblog.com/gemma-4-12b-the-developer-...
A afirmação de que “pode rodar localmente em notebooks de consumidor com 16GB de RAM” parece presumir quantização e, considerando a perda de qualidade, pode ser um pouco enganosa
A FAIR já fazia isso há 2 anos: https://arxiv.org/abs/2405.09818
Desde então eu estava esperando a liberação de modelos assim, mas o ponto irritante é que o Chameleon, com o mesmo princípio, fazia até saída multimodal, enquanto este modelo aceita apenas entrada
Fico curioso sobre como fizeram o pré-treinamento sem saída multimodal, e nem sei se ele não suporta geração de imagem porque isso foi removido
Muita gente tem um Mac com 16GB, inclusive jornalistas, e qualquer pessoa pode baixar o app, instalar o modelo e começar a mexer imediatamente
Acho que os jornalistas já deveriam começar a fazer perguntas sobre as perspectivas de receita com consumidores da OpenAI
Sou bem cético em relação a IA, mas para ser um cético bem informado experimentei um pouco trabalho de agente e geração de CAD-para-imagem com modelos locais, e gostei bastante do modelo Gemma 26B
Estou usando isso para aprender os fundamentos e me acostumar com o OpenCode sem criar dependência de nuvem; ele também escreve código muito bem e ajuda a aprender no ritmo que eu quero
Se este modelo de 12B chegar sequer à metade do que a divulgação promete, isso já coloca em dúvida, ao menos no curto prazo, o modelo de negócios em nuvem voltado ao consumidor
Não está claro se este app usa MTP drafter, e ainda não consegui fazer isso funcionar diretamente no Gemma, mas o suporte embutido a MTP do Qwen 3.6 funcionou muito bem no LM Studio
Antes de focar demais na quantização, é melhor ver primeiro quão bom é o modelo base
É surpreendente e ao mesmo tempo não surpreendente que eles continuem desenvolvendo essas otimizações. Como a evolução do silício e das arquiteturas de CPU, tudo foi sendo encolhido e fortalecido ao mesmo tempo, e parece que a IA também ficará 100 vezes mais eficiente com o tempo
Em algum momento haverá limites, mas nos próximos 30 anos talvez avancemos mais do que nos últimos 30, e possamos acabar vivendo em um mundo futurista, meio Blade Runner, em que edição genética conserta células envelhecidas e órgãos e cura o câncer
Acho que, depois da nossa geração, as pessoas vão viver mantendo mobilidade estável até os 125 anos, e no fim talvez até passem a pensar em uma vida útil de 1000 anos.
Olhando 30 anos para trás e 30 para frente, parece que tudo vai mudar de um jeito absurdo. Que Deus nos proteja.
Este é claramente um momento interessante, mas, do ponto de vista do avanço de ponta, ainda restam muitos frutos mais baixos para colher
Só que há um limite para o “conhecimento” que dá para colocar em um número pequeno de parâmetros
Imagino que o começo do rádio, da aviação e até dos microcomputadores deva ter parecido assim
Escolhi priorizar a otimização da longevidade acima de carreira ou hobbies. Quero ver o futuro, e essa onda de IA é realmente fascinante
Não é bem assim
Modelos grandes ainda estão muito à frente, e até o Gemma 31B é melhor no geral do que o 12B, mas não dá para se iludir achando que ele chegou perto dos modelos grandes
Certamente ainda há espaço para otimização, mas, em tarefas complexas, a precisão exige gradientes pequenos e visíveis que possam ser capturados no treinamento e seguidos na inferência
Por exemplo, se você mandar não escrever código e fizer uma pergunta de programação, o Gemma ainda vai escrever código, enquanto Gemini ou Claude captam essa nuance e seguem melhor a instrução
Tenho curiosidade sobre a razão comercial de o Google divulgar modelos abertos. Sou grato por esse tipo de divulgação, mas quero entender como isso se encaixa no panorama maior para uma empresa com fins lucrativos
Fico pensando se eles não estão ajudando concorrentes a subir em cima de uma tecnologia nova que eles mesmos desenvolveram
Queria saber se é só boa vontade ou marketing, ou se existe alguma estratégia que estou deixando passar
Se a inferência se tornar popular e valiosa o bastante para essas empresas gerarem bilhões de dólares em lucro, elas podem usar esse lucro para criar produtos e plataformas substitutos que cortem o Google da relação com o cliente
O Google já tem um dos maiores negócios do mundo com 80% de margem bruta, e todo mundo quer uma parte disso
Se oferecer inferência de fronteira perto do custo e liberar em open source os modelos abaixo da fronteira para comoditizar os modelos, fica mais difícil para os laboratórios de fronteira manterem margens brutas altas de forma contínua na inferência
Isso é estratégico
Hoje a minha empresa também está apostando tudo em vários produtos de plataforma, e a Microsoft também disse ontem que a meta é “Unmetered intelligence”
Há muita coisa que modelos locais pequenos tornam possível, e essas coisas viram parte de uma stack que gera receita em outras camadas
De qualquer forma, alguém acabaria extraindo os pesos, então é mais fácil simplesmente liberar em open source e oficializar isso
Quanto mais a adoção de IA cresce, mais isso sobe junto, e quanto mais as pessoas escolhem soluções do Google, melhor fica para ele
Todo token enviado para um modelo do Google, seja grátis ou pago, pressiona concorrentes a gastar fortunas para continuar no estado da arte
A questão é se o modelo deve ser publicado ou usado só para P&D puro
Como outros lugares já estão publicando modelos de qualidade parecida, não parece que entrar nessa tendência seja um tiro no próprio pé
A canibalização adicional é praticamente zero, e o ganho de reputação provavelmente vale a pena
O processamento de imagens é péssimo. Fiz vários testes com o Qwen 3.5 0.8B e, apesar de ter só 7% do tamanho, o Qwen ganhou toda vez, e o Gemma muitas vezes errou completamente
Dei até uma imagem simples com “This is a test” escrito, e ele ficou 6 minutos tentando analisar antes de falhar, enquanto o Qwen 3.5 0.8B acertou com confiança em menos de 1 segundo
Pode ser que a quantização Q6 que recebi esteja quebrada, ou que seja problema do LM Studio, mas, de qualquer forma, o desempenho do 0.8B é surpreendente em comparação
Com os modelos Gemma3 também acontecia bastante de eles se recusarem a descrever uma imagem alegando exposição ou cena sexual, e eu nunca entendi bem o sentido desse comportamento
Independentemente da mudança de arquitetura, isso parece responder por que havia um vazio tão estranho entre 4B e 26B na linha de modelos pré-treinados do Gemma4
Um modelo que cabe com folga em 16GB de VRAM, ainda com margem de contexto, é uma atualização bem-vinda
Tirando multimídia, fico curioso sobre o quanto isso é melhor do que o modelo de 1,5 bit baseado em qwen2.5 da prismml
Fico curioso sobre casos de uso para modelos pequenos como este. Alguém que usa modelos desse porte no dia a dia poderia compartilhar experiências reais?
Coisas como passar documentos escaneados para texto formatado, gerar legendas/descrições de imagens e classificar adequação do conteúdo (incluindo prevenção de spam), ou combinar documentos com páginas relevantes da Wikipedia para etiquetagem
Não uso como um modelo de fronteira; eu quebro tudo em microtarefas, de modo que cada prompt tenha um objetivo claro
Também uso bastante código de cola para fazer o fluxo completo funcionar, e essas tarefas já eram coisas que eu fazia antes mesmo dos LLMs
Com LLMs, consegui reduzir código complexo e acrescentar modelos para obter resultados melhores
Uso modelos locais por custo e controle. Eu já tinha workstation e GPU, então o custo operacional é basicamente só eletricidade
Também já usei modelos proprietários da OpenAI e do Google, mas já tive ferramentas abaladas quando o modelo de que dependiam foi descontinuado. Se os pesos ficam salvos localmente, essa preocupação desaparece
Outro dia também vi um app pequeno que olhava screenshots e renomeava arquivos com base no conteúdo do arquivo
Há muitos exemplos pequenos assim, e para muitos casos de uso não é necessário nenhum modelo de fronteira
Usei o Gemma para alguns anos de revisão e classificação de textos online. Apliquei a cerca de 5 milhões de palavras que escrevi em fóruns de projetos open source dos quais participo, no HN, Reddit etc., e como os textos são meus, também experimentei treinamento com LoRA sem preocupação ética com a origem dos dados
Agora estou usando para busca na web e extração de dados sobre setores específicos
É inteligente o bastante para encontrar empresas daquele setor em uma cidade determinada, ler seus sites, extrair endereço e telefone, remover duplicatas e até cruzar com outras fontes para validação
O Gemma 4 fez julgamentos melhores, ou ao menos mais sutis, que o Gemini 2.5 Flash, e o novo Gemini 3.5 Flash é muito bom, mas absurdamente caro
Se você não precisa de desempenho extremamente rápido, um Gemma 4 self-hosted vence em várias tarefas
O Qwen 3.6 27B também é surpreendentemente bom em encontrar bugs de segurança para o seu tamanho. Supera vários modelos maiores e chega perto do Gemini Pro 3.1, mas o Gemini 3.5 Flash é, de forma surpreendente, claramente melhor
O custo é só a eletricidade, minha energia é barata e 100% renovável, então posso usar mais amplamente do que modelos hospedados
Mesmo assim, o dinheiro mais bem gasto ainda é comprando tokens que os provedores estão vendendo barato quase como subsídio
Em vez de comprar hardware para rodar modelos acima de 30GB, hoje faz mais sentido usar assinaturas de 100 dólares do Claude ou do Codex para acessar os melhores modelos com grande desconto
Se você precisa de uma API para automação, DeepSeek/MiMo custa uma ou duas ordens de magnitude menos que os melhores modelos da Anthropic ou da OpenAI
Gastei cerca de 4.000 dólares em duas máquinas de inferência, e com esse dinheiro daria para comprar tokens desses modelos pequenos para vários anos
Ainda assim, eu gosto de mexer com hardware, então isso por si só já compensa, e recuperar ao menos parte do valor é um bônus
Se os principais provedores pararem de queimar dinheiro com tokens subsidiados e começarem a cobrar de verdade, a conta pode mudar, e talvez eu tenha tido sorte de comprar o equipamento antes de o preço da RAM subir 2 ou 3 vezes
Se você não pretende aprender a tecnologia ou fazer experimentos de treino por conta própria, na maioria dos casos provavelmente é melhor nem tentar rodar localmente
Se você tiver uma ideia muito específica de uso de modelos locais, dá para fazer funcionar bem mesmo sem placa de vídeo ou NPU
Mas é preciso restringir o uso de forma extrema. Não é bom como chatbot de uso geral e, embora eu goste de LLMs locais, nesse caso eu usaria um modelo hospedado mais recente
Se é algo fácil o bastante para deixar com o Sonnet, também deixo com o Gemma 4, e ele está indo muito bem
Sou positivamente surpreendido com muito mais frequência do que negativamente
Não é raro eu trocar do Gemma 4 para o Opus 4.7 porque o Gemma falhou, e o Opus também falhar
É uma atualização bem boa. Mas o vídeo de demonstração é meio engraçado
O testador pede para o modelo transformar o release em marcadores, e ele faz isso bem
Em seguida pede um rascunho de email com esse conteúdo, e o modelo, sem ninguém pedir, transforma os marcadores em parágrafos e desfaz o que tinha acabado de fazer direito
Não sei se existe alguma etiqueta que proíba marcadores em emails
Publiquei rapidamente alguns benchmarks relacionados a alemão para conferir. No resultado específico de alemão do CohereLabs/include-base-44, o Gemma 4 12B fica em torno de 0,618
Gemma 4 26B (A4B MoE) fica em 0,647, Qwen 3 14B em 0,621, Gemma 4 12B em 0,618, Ministral 14B 2512 em 0,604 e Gemma 3 12B em 0,547
A diferença entre Qwen 3 14B e Gemma 4 12B está dentro da margem de variação aleatória, e em execuções repetidas já apareceu exatamente a mesma pontuação
O próximo degrau, o Gemma 4 31B, marca 0,676 nesse benchmark, e o Qwen 3 14B com raciocínio permitido também chega a 0,676
Amanhã pretendo rodar também um benchmark anti-cheating para ver se o Qwen continua na frente