4 pontos por GN⁺ 3 시간 전 | 3 comentários | Compartilhar no WhatsApp
  • Gemma 4 12B é um modelo de porte intermediário projetado para executar inteligência multimodal com agentes em notebooks, preenchendo a lacuna entre o E4B, voltado para edge, e o 26B MoE, mais avançado
  • Com uma arquitetura integrada sem encoder, adota a abordagem de enviar entradas de imagem e áudio diretamente para o backbone do LLM, sem um encoder multimodal separado, para reduzir latência e uso de memória
  • Embora seu desempenho em benchmarks padrão se aproxime do modelo maior 26B MoE, o uso total de memória fica abaixo da metade, permitindo execução local em notebooks de consumo com 16 GB de RAM ou VRAM/memória unificada
  • O Gemma 4 12B é o primeiro modelo de porte intermediário da família Gemma a oferecer entrada nativa de áudio e busca reduzir a latência com drafters de Multi-Token Prediction
  • Os modelos Gemma 4 já ultrapassaram 150 milhões de downloads, e o Gemma 4 12B amplia o alcance do desenvolvimento de agentes multimodais locais com licença Apache 2.0 e suporte aos principais caminhos de ferramentas e implantação

Principais características

  • O Gemma 4 12B foi projetado para levar inteligência multimodal de alto desempenho diretamente aos notebooks, combinando eficiência mobile-first com raciocínio avançado
  • Ele se posiciona entre o E4B, voltado para edge, e o mais avançado 26B Mixture of Experts (MoE), reunindo capacidades fortes dentro de uma pegada de memória reduzida
  • Os principais destaques são os seguintes
    • arquitetura integrada que envia entradas de visão e áudio diretamente ao backbone do LLM, sem encoder multimodal
    • desempenho em benchmarks próximo ao modelo 26B e suporte a raciocínio em múltiplas etapas e fluxos de trabalho com agentes
    • prontidão para notebooks, com execução local usando apenas 16 GB de VRAM ou memória unificada
    • licença Apache 2.0 e suporte ao ecossistema de desenvolvedores
    • redução de latência com drafters de Multi-Token Prediction (MTP)

Como funciona o processamento multimodal sem encoder

  • Modelos multimodais convencionais geralmente convertem imagem e áudio com encoders separados e depois passam essas representações ao modelo de linguagem
  • O Gemma 4 12B foi treinado para integrar diretamente entradas de áudio e visão, evitando o aumento de latência e consumo de memória causado por encoders separados
  • No processamento visual, o encoder de visão do Gemma 4 é substituído por um módulo leve de embeddings composto por uma única multiplicação de matriz, embeddings posicionais e normalização, deixando o backbone do LLM responsável pelo processamento visual
  • No processamento de áudio, o encoder de áudio é removido por completo, e o sinal bruto de áudio é projetado no mesmo espaço dimensional dos tokens de texto
  • Uma explicação mais detalhada da arquitetura para desenvolvedores pode ser encontrada no Gemma 4 12B Developer Guide

Caminhos para começar a usar

3 comentários

 
kaydash 36 분 전

Não é algo que acabou de sair, então por que está sendo mencionado agora?

 
winterjung 32 분 전

Antes, havia apenas os modelos e e 26b e 31b, e o modelo Gemma 4 12b foi lançado agora.

 
GN⁺ 3 시간 전
Comentários do Hacker News
  • Rodei o modelo quantizado em Q4 no llama.cpp e o coloquei no meu próprio benchmark de vibe coding do Campo Minado: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
    O resultado foi bom, mas tive que corrigir manualmente algumas vezes erros de sintaxe estranhos e pequenos, como adicionar um parêntese de fechamento extra ou tentar separar definições de função com vírgulas
    Levando essas pistas em conta, é um modelo local de programação decente, e só pelo output ele fica mais ou menos no nível do GPT-4.1 lançado 14 meses atrás: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
    Em uma placa de consumidor com 12GB de VRAM, entregou 5 tokens/s em GGUF de 4 bits; é lento para programação interativa, mas ainda assim um modelo bem utilizável
    É interessante que, em pouco mais de um ano, um modelo de 12 bilhões de parâmetros tenha quase alcançado, em um benchmark específico, o desempenho de programação que era visto como nível GPT-4.1
    Lista dos vários modelos testados: https://senko.net/vibecode-bench/
    • Provavelmente não é um modelo treinado para programação. Tem entrada de áudio e visão, tem só 12B, e programação não é mencionada em nenhum lugar do anúncio
      O desempenho geral em programação provavelmente é inferior ao de outros modelos pequenos como Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B e gpt-oss-20b
      Em um notebook com 16GB, o Qwen 3.5 9B é claramente o mais forte, e o topo entre os pequenos modelos de programação é o Gemma 4 31B, mas ele é dense, então precisa de cerca de 48GB de memória unificada para usar todo o contexto
    • Se em uma placa com 12GB de VRAM ele está gerando 5 tokens/s, parece que está usando modo híbrido, misturando CPU e RAM do sistema
      Essa velocidade é o tipo de número esperado ao rodar um modelo desse tamanho em 4 bits com largura de banda de RAM DDR4, e em uma GPU Nvidia de consumo com 12GB como RTX 2080 ou RTX 3060, o backend CUDA do llama.cpp deveria passar de 20 tokens/s
    • A maior vitória em programação parece ter sido a capacidade de raciocínio. Por isso um modelo pequeno pode empatar com o desempenho de programação do GPT-4.1, mas em conhecimento geral de mundo o GPT-4.1 maior provavelmente ainda vence
    • Fico me perguntando se os problemas de sintaxe poderiam ser resolvidos com fine-tuning ou outros ajustes de parâmetros. Esse tipo de erro é bem irritante
  • A grande história aqui é a arquitetura sem encoder, mas ainda não entendi completamente
    A explicação de que “o encoder de visão do Gemma 4 foi substituído por um módulo leve de embedding composto por uma única multiplicação de matriz, embedding posicional e normalização” tecnicamente ainda é codificação, então parece significar que não usa um modelo dedicado como o SigLIP
    O guia para desenvolvedores dá mais detalhes, falando em uma camada de 35M, e fico curioso se isso é robusto o suficiente: https://developers.googleblog.com/gemma-4-12b-the-developer-...
    A afirmação de que “pode rodar localmente em notebooks de consumidor com 16GB de RAM” parece presumir quantização e, considerando a perda de qualidade, pode ser um pouco enganosa
    • Dentro da página para desenvolvedores há um texto que explica bem a arquitetura sem encoder: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
    • Isso é basicamente fusão inicial
      A FAIR já fazia isso há 2 anos: https://arxiv.org/abs/2405.09818
      Desde então eu estava esperando a liberação de modelos assim, mas o ponto irritante é que o Chameleon, com o mesmo princípio, fazia até saída multimodal, enquanto este modelo aceita apenas entrada
      Fico curioso sobre como fizeram o pré-treinamento sem saída multimodal, e nem sei se ele não suporta geração de imagem porque isso foi removido
    • No sentido comum, “codificação” está correto, mas aqui parece que querem dizer que não existe uma rede neural encoder
    • Acho que a verdadeira grande história é o app Gallery: https://developers.google.com/edge/gallery
      Muita gente tem um Mac com 16GB, inclusive jornalistas, e qualquer pessoa pode baixar o app, instalar o modelo e começar a mexer imediatamente
      Acho que os jornalistas já deveriam começar a fazer perguntas sobre as perspectivas de receita com consumidores da OpenAI
      Sou bem cético em relação a IA, mas para ser um cético bem informado experimentei um pouco trabalho de agente e geração de CAD-para-imagem com modelos locais, e gostei bastante do modelo Gemma 26B
      Estou usando isso para aprender os fundamentos e me acostumar com o OpenCode sem criar dependência de nuvem; ele também escreve código muito bem e ajuda a aprender no ritmo que eu quero
      Se este modelo de 12B chegar sequer à metade do que a divulgação promete, isso já coloca em dúvida, ao menos no curto prazo, o modelo de negócios em nuvem voltado ao consumidor
      Não está claro se este app usa MTP drafter, e ainda não consegui fazer isso funcionar diretamente no Gemma, mas o suporte embutido a MTP do Qwen 3.6 funcionou muito bem no LM Studio
    • Em 12B, isso dá 12GB a 8 bits por parâmetro, com perda quase nula, e 6GB a 4 bits por parâmetro, algo normalmente visto como “bem próximo”
      Antes de focar demais na quantização, é melhor ver primeiro quão bom é o modelo base
  • Agora estamos entrando em um jogo de ciclo fechado. O Google não precisa dos outros para acelerar seus próprios modelos, e isso está bem próximo do seu negócio principal
    É surpreendente e ao mesmo tempo não surpreendente que eles continuem desenvolvendo essas otimizações. Como a evolução do silício e das arquiteturas de CPU, tudo foi sendo encolhido e fortalecido ao mesmo tempo, e parece que a IA também ficará 100 vezes mais eficiente com o tempo
    Em algum momento haverá limites, mas nos próximos 30 anos talvez avancemos mais do que nos últimos 30, e possamos acabar vivendo em um mundo futurista, meio Blade Runner, em que edição genética conserta células envelhecidas e órgãos e cura o câncer

Acho que, depois da nossa geração, as pessoas vão viver mantendo mobilidade estável até os 125 anos, e no fim talvez até passem a pensar em uma vida útil de 1000 anos.
Olhando 30 anos para trás e 30 para frente, parece que tudo vai mudar de um jeito absurdo. Que Deus nos proteja.

  • Este é claramente um momento interessante, mas, do ponto de vista do avanço de ponta, ainda restam muitos frutos mais baixos para colher
    Só que há um limite para o “conhecimento” que dá para colocar em um número pequeno de parâmetros
    Imagino que o começo do rádio, da aviação e até dos microcomputadores deva ter parecido assim

  • Escolhi priorizar a otimização da longevidade acima de carreira ou hobbies. Quero ver o futuro, e essa onda de IA é realmente fascinante

  • Não é bem assim
    Modelos grandes ainda estão muito à frente, e até o Gemma 31B é melhor no geral do que o 12B, mas não dá para se iludir achando que ele chegou perto dos modelos grandes
    Certamente ainda há espaço para otimização, mas, em tarefas complexas, a precisão exige gradientes pequenos e visíveis que possam ser capturados no treinamento e seguidos na inferência
    Por exemplo, se você mandar não escrever código e fizer uma pergunta de programação, o Gemma ainda vai escrever código, enquanto Gemini ou Claude captam essa nuance e seguem melhor a instrução

  • Tenho curiosidade sobre a razão comercial de o Google divulgar modelos abertos. Sou grato por esse tipo de divulgação, mas quero entender como isso se encaixa no panorama maior para uma empresa com fins lucrativos
    Fico pensando se eles não estão ajudando concorrentes a subir em cima de uma tecnologia nova que eles mesmos desenvolveram
    Queria saber se é só boa vontade ou marketing, ou se existe alguma estratégia que estou deixando passar

    • Um grande motivo para laboratórios de fronteira conseguirem 80% de margem bruta em inferência é que eles controlam o recurso escasso que são os modelos de fronteira
      Se a inferência se tornar popular e valiosa o bastante para essas empresas gerarem bilhões de dólares em lucro, elas podem usar esse lucro para criar produtos e plataformas substitutos que cortem o Google da relação com o cliente
      O Google já tem um dos maiores negócios do mundo com 80% de margem bruta, e todo mundo quer uma parte disso
      Se oferecer inferência de fronteira perto do custo e liberar em open source os modelos abaixo da fronteira para comoditizar os modelos, fica mais difícil para os laboratórios de fronteira manterem margens brutas altas de forma contínua na inferência
      Isso é estratégico
    • Esse modelo não substitui um produto comercial próprio de receita, mas viabiliza atividade de desenvolvimento e abre conversa com empresas que começam com esse modelo e depois querem um pouco mais
      Hoje a minha empresa também está apostando tudo em vários produtos de plataforma, e a Microsoft também disse ontem que a meta é “Unmetered intelligence”
      Há muita coisa que modelos locais pequenos tornam possível, e essas coisas viram parte de uma stack que gera receita em outras camadas
    • Android e Chrome precisam de recursos de IA on-device. O Google não consegue manter esses pesos trancados como faz com machine learning no servidor
      De qualquer forma, alguém acabaria extraindo os pesos, então é mais fácil simplesmente liberar em open source e oficializar isso
    • O Google é uma das poucas opções de integração vertical em IA. Tem dados, modelos, serviços de nuvem, silício de baixo nível (TPU), uso interno, uso para consumidores, uso B2B e canais de distribuição (navegador e mobile)
      Quanto mais a adoção de IA cresce, mais isso sobe junto, e quanto mais as pessoas escolhem soluções do Google, melhor fica para ele
      Todo token enviado para um modelo do Google, seja grátis ou pago, pressiona concorrentes a gastar fortunas para continuar no estado da arte
    • Se eu fosse um laboratório de IA, seria inevitável querer uma equipe de pesquisa nessa área. É onde dá para iterar e produzir melhorias com mais facilidade, e depois refletir isso em modelos de fronteira maiores
      A questão é se o modelo deve ser publicado ou usado só para P&D puro
      Como outros lugares já estão publicando modelos de qualidade parecida, não parece que entrar nessa tendência seja um tiro no próprio pé
      A canibalização adicional é praticamente zero, e o ganho de reputação provavelmente vale a pena
  • O processamento de imagens é péssimo. Fiz vários testes com o Qwen 3.5 0.8B e, apesar de ter só 7% do tamanho, o Qwen ganhou toda vez, e o Gemma muitas vezes errou completamente
    Dei até uma imagem simples com “This is a test” escrito, e ele ficou 6 minutos tentando analisar antes de falhar, enquanto o Qwen 3.5 0.8B acertou com confiança em menos de 1 segundo
    Pode ser que a quantização Q6 que recebi esteja quebrada, ou que seja problema do LM Studio, mas, de qualquer forma, o desempenho do 0.8B é surpreendente em comparação

    • Parece que o Google colocou guardrails mais fortes ou em maior quantidade do que a Alibaba, e isso acaba confundindo o modelo pequeno
      Com os modelos Gemma3 também acontecia bastante de eles se recusarem a descrever uma imagem alegando exposição ou cena sexual, e eu nunca entendi bem o sentido desse comportamento
    • Sempre achei que os modelos Gemma fossem muito piores que o Qwen em tarefas de visão, então isso não é exatamente novidade
  • Independentemente da mudança de arquitetura, isso parece responder por que havia um vazio tão estranho entre 4B e 26B na linha de modelos pré-treinados do Gemma4
    Um modelo que cabe com folga em 16GB de VRAM, ainda com margem de contexto, é uma atualização bem-vinda

  • Tirando multimídia, fico curioso sobre o quanto isso é melhor do que o modelo de 1,5 bit baseado em qwen2.5 da prismml

  • Fico curioso sobre casos de uso para modelos pequenos como este. Alguém que usa modelos desse porte no dia a dia poderia compartilhar experiências reais?

    • Eu rodo vLLM numa máquina Linux no porão e conecto via Tailscale para usar modelos pequenos em várias tarefas
      Coisas como passar documentos escaneados para texto formatado, gerar legendas/descrições de imagens e classificar adequação do conteúdo (incluindo prevenção de spam), ou combinar documentos com páginas relevantes da Wikipedia para etiquetagem
      Não uso como um modelo de fronteira; eu quebro tudo em microtarefas, de modo que cada prompt tenha um objetivo claro
      Também uso bastante código de cola para fazer o fluxo completo funcionar, e essas tarefas já eram coisas que eu fazia antes mesmo dos LLMs
      Com LLMs, consegui reduzir código complexo e acrescentar modelos para obter resultados melhores
      Uso modelos locais por custo e controle. Eu já tinha workstation e GPU, então o custo operacional é basicamente só eletricidade
      Também já usei modelos proprietários da OpenAI e do Google, mas já tive ferramentas abaladas quando o modelo de que dependiam foi descontinuado. Se os pesos ficam salvos localmente, essa preocupação desaparece
    • Num app de ditado que fiz, uso modelo local para lapidar o texto e corrigir gramática. Foi muito fácil de fazer, e agora estou expandindo para captura e resumo de atas de reunião, tudo processado on-device
      Outro dia também vi um app pequeno que olhava screenshots e renomeava arquivos com base no conteúdo do arquivo
      Há muitos exemplos pequenos assim, e para muitos casos de uso não é necessário nenhum modelo de fronteira
  • Usei o Gemma para alguns anos de revisão e classificação de textos online. Apliquei a cerca de 5 milhões de palavras que escrevi em fóruns de projetos open source dos quais participo, no HN, Reddit etc., e como os textos são meus, também experimentei treinamento com LoRA sem preocupação ética com a origem dos dados
    Agora estou usando para busca na web e extração de dados sobre setores específicos
    É inteligente o bastante para encontrar empresas daquele setor em uma cidade determinada, ler seus sites, extrair endereço e telefone, remover duplicatas e até cruzar com outras fontes para validação
    O Gemma 4 fez julgamentos melhores, ou ao menos mais sutis, que o Gemini 2.5 Flash, e o novo Gemini 3.5 Flash é muito bom, mas absurdamente caro
    Se você não precisa de desempenho extremamente rápido, um Gemma 4 self-hosted vence em várias tarefas
    O Qwen 3.6 27B também é surpreendentemente bom em encontrar bugs de segurança para o seu tamanho. Supera vários modelos maiores e chega perto do Gemini Pro 3.1, mas o Gemini 3.5 Flash é, de forma surpreendente, claramente melhor
    O custo é só a eletricidade, minha energia é barata e 100% renovável, então posso usar mais amplamente do que modelos hospedados
    Mesmo assim, o dinheiro mais bem gasto ainda é comprando tokens que os provedores estão vendendo barato quase como subsídio
    Em vez de comprar hardware para rodar modelos acima de 30GB, hoje faz mais sentido usar assinaturas de 100 dólares do Claude ou do Codex para acessar os melhores modelos com grande desconto
    Se você precisa de uma API para automação, DeepSeek/MiMo custa uma ou duas ordens de magnitude menos que os melhores modelos da Anthropic ou da OpenAI
    Gastei cerca de 4.000 dólares em duas máquinas de inferência, e com esse dinheiro daria para comprar tokens desses modelos pequenos para vários anos
    Ainda assim, eu gosto de mexer com hardware, então isso por si só já compensa, e recuperar ao menos parte do valor é um bônus
    Se os principais provedores pararem de queimar dinheiro com tokens subsidiados e começarem a cobrar de verdade, a conta pode mudar, e talvez eu tenha tido sorte de comprar o equipamento antes de o preço da RAM subir 2 ou 3 vezes
    Se você não pretende aprender a tecnologia ou fazer experimentos de treino por conta própria, na maioria dos casos provavelmente é melhor nem tentar rodar localmente

    • Modelos pequenos têm um nicho muito bom em tarefas específicas. Na parte de processamento de documentos do app desktop que estou desenvolvendo, uso um modelo Phi-4 fine-tunado, menor que este e que cabe em cerca de 3,5GB de RAM, não VRAM
      Se você tiver uma ideia muito específica de uso de modelos locais, dá para fazer funcionar bem mesmo sem placa de vídeo ou NPU
      Mas é preciso restringir o uso de forma extrema. Não é bom como chatbot de uso geral e, embora eu goste de LLMs locais, nesse caso eu usaria um modelo hospedado mais recente
    • Não conheço este modelo, mas o 31B logo acima estou usando no OpenCode como assistente de programação com agentes
      Se é algo fácil o bastante para deixar com o Sonnet, também deixo com o Gemma 4, e ele está indo muito bem
      Sou positivamente surpreendido com muito mais frequência do que negativamente
      Não é raro eu trocar do Gemma 4 para o Opus 4.7 porque o Gemma falhou, e o Opus também falhar
  • É uma atualização bem boa. Mas o vídeo de demonstração é meio engraçado
    O testador pede para o modelo transformar o release em marcadores, e ele faz isso bem
    Em seguida pede um rascunho de email com esse conteúdo, e o modelo, sem ninguém pedir, transforma os marcadores em parágrafos e desfaz o que tinha acabado de fazer direito
    Não sei se existe alguma etiqueta que proíba marcadores em emails

  • Publiquei rapidamente alguns benchmarks relacionados a alemão para conferir. No resultado específico de alemão do CohereLabs/include-base-44, o Gemma 4 12B fica em torno de 0,618
    Gemma 4 26B (A4B MoE) fica em 0,647, Qwen 3 14B em 0,621, Gemma 4 12B em 0,618, Ministral 14B 2512 em 0,604 e Gemma 3 12B em 0,547
    A diferença entre Qwen 3 14B e Gemma 4 12B está dentro da margem de variação aleatória, e em execuções repetidas já apareceu exatamente a mesma pontuação
    O próximo degrau, o Gemma 4 31B, marca 0,676 nesse benchmark, e o Qwen 3 14B com raciocínio permitido também chega a 0,676
    Amanhã pretendo rodar também um benchmark anti-cheating para ver se o Qwen continua na frente