Google revela o modelo aberto Gemma 4
(deepmind.google)- O Google DeepMind anunciou o Gemma 4, a nova geração de modelos abertos de IA baseada na tecnologia do Gemini 3, projetada com uma arquitetura que maximiza a eficiência de inteligência por parâmetro
- O modelo é oferecido em quatro tamanhos: E2B, E4B, 26B e 31B, com suporte a uma ampla faixa de execução, de dispositivos móveis e IoT até ambientes com GPU pessoal
- Inclui recursos principais como raciocínio multimodal, suporte a 140 idiomas, workflows agentic, fine-tuning detalhado e arquitetura eficiente
- O desempenho em matemática, código e compreensão multimodal melhorou significativamente em relação ao Gemma 3, enquanto os padrões de segurança e confiabilidade permanecem no mesmo nível dos modelos comerciais do Google
- Os pesos do modelo podem ser baixados em Hugging Face, Ollama, Kaggle, LM Studio e Docker, com suporte para execução integrada em ambientes locais e na nuvem
Gemma 4 — o modelo aberto de IA da próxima geração
- O Gemma 4 é o mais recente modelo aberto do Google DeepMind, desenvolvido com base nas pesquisas e tecnologias do Gemini 3, com uma arquitetura voltada a maximizar a eficiência de inteligência por parâmetro (intelligence-per-parameter)
- O modelo é oferecido em quatro tamanhos: E2B, E4B, 26B e 31B, podendo rodar em diversos ambientes, de dispositivos móveis e IoT a workstations pessoais
- Entre os principais recursos estão raciocínio multimodal, suporte a 140 idiomas, workflows agentic, fine-tuning detalhado e arquitetura eficiente
- Nos benchmarks de desempenho, registrou melhorias gerais em relação ao Gemma 3, com pontuações especialmente altas em matemática, código e compreensão multimodal
- Os padrões de segurança e confiabilidade permanecem no mesmo nível dos modelos comerciais do Google, e os pesos do modelo podem ser baixados em Hugging Face, Ollama, Kaggle, LM Studio e Docker
Configuração do modelo e eficiência
- O Gemma 4 foi projetado com base na tecnologia do Gemini 3 e adota uma arquitetura de modelo aberto que maximiza a eficiência de inteligência
- Os tamanhos do modelo são divididos em quatro versões: E2B, E4B, 26B e 31B, e cada uma é otimizada de acordo com os recursos computacionais e a eficiência de memória
- E2B e E4B: para dispositivos móveis e IoT, com suporte a máxima eficiência e execução offline
- 26B e 31B: oferecem capacidade de raciocínio de nível frontier em ambientes com GPU pessoal
Recursos principais
-
Agentic workflows
- Suporta function calling nativamente, permitindo criar agentes autônomos capazes de planejar, explorar apps e executar tarefas em nome do usuário
-
Multimodal reasoning
- Combina entendimento de áudio e visão para dar suporte ao desenvolvimento de aplicações multimodais ricas
-
Support for 140 languages
- Vai além da simples tradução, permitindo criar experiências multilíngues que incluem compreensão de contexto cultural
-
Fine tuning
- Permite fine-tuning para melhorar o desempenho em tarefas específicas usando os frameworks e técnicas preferidos do usuário
-
Efficient architecture
- Pode rodar em hardware próprio, oferecendo um ambiente eficiente de desenvolvimento e implantação
Desempenho
- O Gemma 4 foi avaliado com base em diversos datasets e métricas relacionados à geração de texto
- Principais resultados de benchmark (com base no Gemma 4 31B IT):
- Arena AI (text): 1452 (contra 1365 do Gemma 3 27B)
- MMMLU (perguntas e respostas multilíngues): 85.2%
- MMMU Pro (raciocínio multimodal): 76.9%
- AIME 2026 (matemática): 89.2%
- LiveCodeBench v6 (problemas de programação): 80.0%
- GPQA Diamond (conhecimento científico): 84.3%
- τ2-bench (uso de ferramentas por agentes): 86.4%
- De modo geral, apresenta melhor desempenho em todos os itens em relação ao Gemma 3, com avanços especialmente grandes em matemática, código e compreensão multimodal
E2B e E4B — para mobile e IoT
- Com suporte a áudio e visão, permite processamento em tempo real em dispositivos de edge
- Oferece execução totalmente offline e desempenho com latência quase zero em smartphones, Raspberry Pi e Jetson Nano
- Pode ser testado via Google AI Edge Gallery
26B e 31B — IA local de alto desempenho
- Oferece recursos avançados de raciocínio adequados para IDEs, assistentes de código e workflows agentic
- É otimizado para GPUs de consumo, permitindo que estudantes, pesquisadores e desenvolvedores montem um ambiente local de servidor de IA
- Pode ser executado diretamente no Google AI Studio
Segurança e confiabilidade
- O Gemma 4 aplica os mesmos protocolos de segurança de infraestrutura dos modelos comerciais do Google
- Fornece uma base transparente e confiável para uso por empresas e órgãos públicos
- Entrega recursos de IA de última geração mantendo os mais altos padrões de segurança e confiabilidade
Download e execução
-
Download dos pesos do modelo
- Os pesos do Gemma 4 estão disponíveis em Hugging Face, Ollama, Kaggle, LM Studio e Docker Hub
-
Suporte para treinamento e implantação
- Integração com diversas plataformas, como Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine e Ollama
- É possível configurar ambientes de treinamento, implantação e inferência por meio da documentação oficial e APIs
Comunidade Gemmaverse
- Pelo Gemmaverse, é possível explorar projetos criados por desenvolvedores do mundo todo usando o Gemma
- Atualizações mais recentes são publicadas pelos canais do Google DeepMind no X, Instagram, YouTube, LinkedIn e GitHub
- Também é possível assinar para receber as últimas novidades sobre inovação em IA
2 comentários
Comentários do Hacker News
Foi divulgada uma versão do Gemma 4 que integra recursos de reasoning, multimodalidade e chamada de ferramentas
É possível baixar modelos quantizados na coleção do Hugging Face, e o guia da Unsloth também foi disponibilizado
Os parâmetros recomendados são temperature=1.0, top_p=0.95, top_k=64, o EOS é
"e o thinking trace usa<|channel>thought\nEu montei um pipeline de OCR, embeddings e sumarização para tornar pesquisáveis registros fundiários do século XIX
Com GGUF e llama.cpp, a busca multilíngue se tornou possível, e uma latência de processamento de 1 minuto não parece problema algum
--reasoning-budget 0e--chat-template-kwargs '{"enable_thinking":false}'não funcionaramDescobri que é preciso usar a nova flag
--reasoning offTestei unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL em um MacBook Air M4 (32GB), e achei muito mais impressionante que o qwen3.5-35b-a3b
O PowerShell instalou vários componentes e pediu para abrir uma URL
localhost, mas falhou logo em seguidaComo não sou desenvolvedor, tenho pouca familiaridade com PowerShell e foi difícil; seria bom se fosse distribuído como um executável único (.exe)
Testei os modelos Gemma 4 no LM Studio
Os modelos 2B e 4B geraram imagens estranhas de pelicano, enquanto o modelo 26B-A4B produziu o melhor resultado que já vi até agora
Compartilhei os resultados do teste
O modelo 31B só imprimiu
---\nlocalmente, mas funcionou normalmente na API do AI StudioEx.: clocks.brianmoore.com
Organizei uma tabela comparando benchmarks do Gemma 4 e do Qwen 3.5
Inclui vários indicadores, como MMLU-Pro, GPQA e Codeforces ELO
Há partes em que o resultado se inverte ao comparar Qwen 3.5-27B com Gemma 4 26B/31B
Foi impressionante a equipe da Unsloth ter publicado o GGUF tão rápido, e se estiver no mesmo nível do Qwen 3.5, isso é muito animador
Os modelos menores do Gemma são muito mais fracos que os modelos pequenos do Qwen
Veja Qwen3.5-4B e esta thread no Reddit sobre o Gemma 4
Sou uma das pessoas da equipe do Gemma que participou deste grande lançamento
Posso responder perguntas, se houver
Veja o blog relacionado
Eu esperava um modelo intermediário para competir com o Qwen3.5 9B
Talvez o próprio benchmark esteja distorcendo a comparação
Link de comparação
Comparei o Gemma 4 e o Qwen 3.5 com um prompt de cálculo de timestamp Unix
O Qwen pensou por mais de 8 minutos e deu a resposta certa, enquanto o Gemma deu um resultado errado em 30 segundos
O Gemma errou porque escreveu um script em Python, mas não conseguiu executá-lo
Caso contrário, ele só consegue chutar
datefunciona corretamente em ambiente GNUNo macOS é preciso instalar
gdate(brew install coreutils)Link do gist
O resultado foi apenas uma execução “imaginada” pelo modelo
O MAX nightly da Modular é a implementação open source mais rápida no Blackwell e no AMD MI355
Segundo o blog da Modular, já pode ser instalado direto via pip
O benchmark do Gemma 4 centrado em ELO pode ser enganoso
Ele fica abaixo do Qwen 3.5 27B na maioria dos indicadores
Ainda assim, os modelos 2B e 4B são interessantes para ASR e OCR
Eu confio mais na pontuação do Lmarena (baseada em avaliação humana)
Link de comparação
Finalmente saiu o lançamento que eu estava esperando
Com mais uma ou duas iterações, parece que vai atender à maior parte das necessidades até em ambiente self-hosted
Antes bastava pergunta e resposta simples, mas agora espero algo no nível de agente de programação
Modelos abertos ainda não chegaram lá, mas este lançamento é promissor
Eles dão conta da maior parte do meu trabalho de tradução, classificação e categorização
A melhor parte deste lançamento é a licença Apache 2.0
Há modelos E2B, E4B (para mobile), 26B-A4B (MoE) e 31B (dense grande)
As versões mobile suportam entrada de áudio, e o 31B é forte em tarefas agentic
O 26B-A4B tem eficiência de VRAM parecida, mas velocidade de inferência muito maior
Comparei um pequeno projeto em Rust entre o Gemma 4 26B e o Qwen 3.5 27B
O Qwen desistiu depois de mais de 1 hora, e o Gemma desistiu em 20 minutos
No resumo do Codex, o Qwen teve maior completude estrutural, enquanto o Gemma foi mais rápido, porém incompleto
Concordo com essa avaliação
Veja o PR relacionado e a issue
Não se deve tirar conclusões cedo demais logo após o lançamento
O 26B-A4B deveria ser comparado com o Qwen 3.5 35B-A3B
Pena que o rumor dos 120b infelizmente não era real.