Google revela o modelo aberto Gemma 4

(deepmind.google)

10 pontos por GN⁺ 28 일 전 | 2 comentários | Compartilhar no WhatsApp

O Google DeepMind anunciou o Gemma 4, a nova geração de modelos abertos de IA baseada na tecnologia do Gemini 3, projetada com uma arquitetura que maximiza a eficiência de inteligência por parâmetro
O modelo é oferecido em quatro tamanhos: E2B, E4B, 26B e 31B, com suporte a uma ampla faixa de execução, de dispositivos móveis e IoT até ambientes com GPU pessoal
Inclui recursos principais como raciocínio multimodal, suporte a 140 idiomas, workflows agentic, fine-tuning detalhado e arquitetura eficiente
O desempenho em matemática, código e compreensão multimodal melhorou significativamente em relação ao Gemma 3, enquanto os padrões de segurança e confiabilidade permanecem no mesmo nível dos modelos comerciais do Google
Os pesos do modelo podem ser baixados em Hugging Face, Ollama, Kaggle, LM Studio e Docker, com suporte para execução integrada em ambientes locais e na nuvem

Gemma 4 — o modelo aberto de IA da próxima geração

O Gemma 4 é o mais recente modelo aberto do Google DeepMind, desenvolvido com base nas pesquisas e tecnologias do Gemini 3, com uma arquitetura voltada a maximizar a eficiência de inteligência por parâmetro (intelligence-per-parameter)
O modelo é oferecido em quatro tamanhos: E2B, E4B, 26B e 31B, podendo rodar em diversos ambientes, de dispositivos móveis e IoT a workstations pessoais
Entre os principais recursos estão raciocínio multimodal, suporte a 140 idiomas, workflows agentic, fine-tuning detalhado e arquitetura eficiente
Nos benchmarks de desempenho, registrou melhorias gerais em relação ao Gemma 3, com pontuações especialmente altas em matemática, código e compreensão multimodal
Os padrões de segurança e confiabilidade permanecem no mesmo nível dos modelos comerciais do Google, e os pesos do modelo podem ser baixados em Hugging Face, Ollama, Kaggle, LM Studio e Docker

Configuração do modelo e eficiência

O Gemma 4 foi projetado com base na tecnologia do Gemini 3 e adota uma arquitetura de modelo aberto que maximiza a eficiência de inteligência
Os tamanhos do modelo são divididos em quatro versões: E2B, E4B, 26B e 31B, e cada uma é otimizada de acordo com os recursos computacionais e a eficiência de memória
- E2B e E4B: para dispositivos móveis e IoT, com suporte a máxima eficiência e execução offline
- 26B e 31B: oferecem capacidade de raciocínio de nível frontier em ambientes com GPU pessoal

Recursos principais

Agentic workflows
- Suporta function calling nativamente, permitindo criar agentes autônomos capazes de planejar, explorar apps e executar tarefas em nome do usuário
Multimodal reasoning
- Combina entendimento de áudio e visão para dar suporte ao desenvolvimento de aplicações multimodais ricas
Support for 140 languages
- Vai além da simples tradução, permitindo criar experiências multilíngues que incluem compreensão de contexto cultural
Fine tuning
- Permite fine-tuning para melhorar o desempenho em tarefas específicas usando os frameworks e técnicas preferidos do usuário
Efficient architecture
- Pode rodar em hardware próprio, oferecendo um ambiente eficiente de desenvolvimento e implantação

Desempenho

O Gemma 4 foi avaliado com base em diversos datasets e métricas relacionados à geração de texto
Principais resultados de benchmark (com base no Gemma 4 31B IT):
- Arena AI (text): 1452 (contra 1365 do Gemma 3 27B)
- MMMLU (perguntas e respostas multilíngues): 85.2%
- MMMU Pro (raciocínio multimodal): 76.9%
- AIME 2026 (matemática): 89.2%
- LiveCodeBench v6 (problemas de programação): 80.0%
- GPQA Diamond (conhecimento científico): 84.3%
- τ2-bench (uso de ferramentas por agentes): 86.4%
De modo geral, apresenta melhor desempenho em todos os itens em relação ao Gemma 3, com avanços especialmente grandes em matemática, código e compreensão multimodal

E2B e E4B — para mobile e IoT

Com suporte a áudio e visão, permite processamento em tempo real em dispositivos de edge
Oferece execução totalmente offline e desempenho com latência quase zero em smartphones, Raspberry Pi e Jetson Nano
Pode ser testado via Google AI Edge Gallery

26B e 31B — IA local de alto desempenho

Oferece recursos avançados de raciocínio adequados para IDEs, assistentes de código e workflows agentic
É otimizado para GPUs de consumo, permitindo que estudantes, pesquisadores e desenvolvedores montem um ambiente local de servidor de IA
Pode ser executado diretamente no Google AI Studio

Segurança e confiabilidade

O Gemma 4 aplica os mesmos protocolos de segurança de infraestrutura dos modelos comerciais do Google
Fornece uma base transparente e confiável para uso por empresas e órgãos públicos
Entrega recursos de IA de última geração mantendo os mais altos padrões de segurança e confiabilidade

Download e execução

Download dos pesos do modelo
- Os pesos do Gemma 4 estão disponíveis em Hugging Face, Ollama, Kaggle, LM Studio e Docker Hub
Suporte para treinamento e implantação
- Integração com diversas plataformas, como Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine e Ollama
- É possível configurar ambientes de treinamento, implantação e inferência por meio da documentação oficial e APIs

Comunidade Gemmaverse

Pelo Gemmaverse, é possível explorar projetos criados por desenvolvedores do mundo todo usando o Gemma
Atualizações mais recentes são publicadas pelos canais do Google DeepMind no X, Instagram, YouTube, LinkedIn e GitHub
Também é possível assinar para receber as últimas novidades sobre inovação em IA

2 comentários

GN⁺ 28 일 전

Comentários do Hacker News

Foi divulgada uma versão do Gemma 4 que integra recursos de reasoning, multimodalidade e chamada de ferramentas
É possível baixar modelos quantizados na coleção do Hugging Face, e o guia da Unsloth também foi disponibilizado
Os parâmetros recomendados são temperature=1.0, top_p=0.95, top_k=64, o EOS é " e o thinking trace usa <|channel>thought\n
- O trabalho do Daniel está mudando o mundo
  Eu montei um pipeline de OCR, embeddings e sumarização para tornar pesquisáveis registros fundiários do século XIX
  Com GGUF e llama.cpp, a busca multilíngue se tornou possível, e uma latência de processamento de 1 minuto não parece problema algum
- Tentei desligar o “thinking” no llama.cpp, mas --reasoning-budget 0 e --chat-template-kwargs '{"enable_thinking":false}' não funcionaram
  Descobri que é preciso usar a nova flag --reasoning off
  Testei unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL em um MacBook Air M4 (32GB), e achei muito mais impressionante que o qwen3.5-35b-a3b
- A captura de tela da etapa “Search and download Gemma 4” no guia está mostrando o qwen3.5, e no Unsloth Studio só aparecem modelos Gemma 3
- Pergunta de iniciante, mas gostaria de entender por que usar esta versão em vez do modelo original
- Ao instalar o Gemma 4 com Unsloth no Windows 11, ocorreu um erro na etapa de definir a senha
  O PowerShell instalou vários componentes e pediu para abrir uma URL localhost, mas falhou logo em seguida
  Como não sou desenvolvedor, tenho pouca familiaridade com PowerShell e foi difícil; seria bom se fosse distribuído como um executável único (.exe)
Testei os modelos Gemma 4 no LM Studio
Os modelos 2B e 4B geraram imagens estranhas de pelicano, enquanto o modelo 26B-A4B produziu o melhor resultado que já vi até agora
Compartilhei os resultados do teste
O modelo 31B só imprimiu ---\n localmente, mas funcionou normalmente na API do AI Studio
- Graças ao benchmark do pelicano, acabo conferindo os comentários no Hacker News a cada novo lançamento de modelo
- Fico pensando se o pelicano agora não virou parte dos dados de treinamento
- Seria ótimo ter uma página de galeria para ver todas as imagens de pelicano de uma vez
  Ex.: clocks.brianmoore.com
- Parece que a qualidade dos pelicanos seria bem melhor usando a versão instruction-tuned
- Queria saber em que especificação de notebook isso foi executado
Organizei uma tabela comparando benchmarks do Gemma 4 e do Qwen 3.5
Inclui vários indicadores, como MMLU-Pro, GPQA e Codeforces ELO
- A pontuação ELO está bem diferente do gráfico do tfa
  Há partes em que o resultado se inverte ao comparar Qwen 3.5-27B com Gemma 4 26B/31B
  Foi impressionante a equipe da Unsloth ter publicado o GGUF tão rápido, e se estiver no mesmo nível do Qwen 3.5, isso é muito animador
- Quem tem uma GPU de 24GB pode não saber muito bem qual modelo escolher com base nessa tabela
- Inverter os eixos e remover alguns modelos pode, na verdade, induzir ao erro
  Os modelos menores do Gemma são muito mais fracos que os modelos pequenos do Qwen
  Veja Qwen3.5-4B e esta thread no Reddit sobre o Gemma 4
Sou uma das pessoas da equipe do Gemma que participou deste grande lançamento
Posso responder perguntas, se houver
- Gostaria de saber se há planos de lançar uma versão com QAT (treinamento com consciência de quantização), como no Gemma 3
  Veja o blog relacionado
- Queria entender por que desta vez não houve uma versão 12B
  Eu esperava um modelo intermediário para competir com o Qwen3.5 9B
- Gostaria de saber se “major number release” realmente significa aumento na escala de recursos computacionais ou se indica uma transição para uma nova arquitetura
- Perguntaram se existe algum motivo para o desempenho parecer baixo em benchmarks além da pontuação ELO
  Talvez o próprio benchmark esteja distorcendo a comparação
- Nos meus testes, o desempenho pareceu quase no nível do Gemini 3 Pro, com custo 10 vezes menor
  Link de comparação
Comparei o Gemma 4 e o Qwen 3.5 com um prompt de cálculo de timestamp Unix
O Qwen pensou por mais de 8 minutos e deu a resposta certa, enquanto o Gemma deu um resultado errado em 30 segundos
O Gemma errou porque escreveu um script em Python, mas não conseguiu executá-lo
- Para que o modelo realmente execute código, é preciso um ambiente de agentic harness com sandbox e especificação fornecida
  Caso contrário, ele só consegue chutar
- O comando date funciona corretamente em ambiente GNU
  No macOS é preciso instalar gdate (brew install coreutils)
- Em um ambiente com RX 9070 XT (24GB de VRAM), obtive o resultado correto mesmo executando sem ferramentas
  Link do gist
- O autor do comentário original não deu ao modelo permissão para executar comandos de verdade
  O resultado foi apenas uma execução “imaginada” pelo modelo
- A última frase foi engraçada
O MAX nightly da Modular é a implementação open source mais rápida no Blackwell e no AMD MI355
Segundo o blog da Modular, já pode ser instalado direto via pip
- Perguntaram se ele é mais rápido que o TensorRT-LLM, ou se a razão é que o TensorRT-LLM não é considerado open source
- Gostaria de saber qual é o ganho de velocidade em relação ao PyTorch
O benchmark do Gemma 4 centrado em ELO pode ser enganoso
Ele fica abaixo do Qwen 3.5 27B na maioria dos indicadores
Ainda assim, os modelos 2B e 4B são interessantes para ASR e OCR
- Benchmarks públicos são fáceis de manipular
  Eu confio mais na pontuação do Lmarena (baseada em avaliação humana)
- Nos meus testes pessoais, ele mostrou resultados bem bons fora da área de programação
  Link de comparação
- Modelos chineses têm desempenho baixo em testes privados como o arc-agi 2
- Benchmark serve só como referência; o mais preciso é testar diretamente no caso de uso real
- Não está claro o que exatamente a métrica “ELO Score” significa
Finalmente saiu o lançamento que eu estava esperando
Com mais uma ou duas iterações, parece que vai atender à maior parte das necessidades até em ambiente self-hosted
- Também concordo, mas minhas “necessidades do dia a dia” ficam mais complexas a cada ano
  Antes bastava pergunta e resposta simples, mas agora espero algo no nível de agente de programação
  Modelos abertos ainda não chegaram lá, mas este lançamento é promissor
- Gemma3:27b e Qwen3-vl:30b-a3b são os LLMs locais que mais uso
  Eles dão conta da maior parte do meu trabalho de tradução, classificação e categorização
- Fico curioso para saber em que tipo de tarefa você usa self-hosting
A melhor parte deste lançamento é a licença Apache 2.0
Há modelos E2B, E4B (para mobile), 26B-A4B (MoE) e 31B (dense grande)
As versões mobile suportam entrada de áudio, e o 31B é forte em tarefas agentic
O 26B-A4B tem eficiência de VRAM parecida, mas velocidade de inferência muito maior
Comparei um pequeno projeto em Rust entre o Gemma 4 26B e o Qwen 3.5 27B
O Qwen desistiu depois de mais de 1 hora, e o Gemma desistiu em 20 minutos
No resumo do Codex, o Qwen teve maior completude estrutural, enquanto o Gemma foi mais rápido, porém incompleto
Concordo com essa avaliação
- No momento, há um bug no chat template que deixa a chamada de ferramentas instável
  Veja o PR relacionado e a issue
  Não se deve tirar conclusões cedo demais logo após o lançamento
- O Qwen 3.5 27B é um modelo dense, então a comparação correta é com o Gemma 4 31B
  O 26B-A4B deveria ser comparado com o Qwen 3.5 35B-A3B
- O Qwen é dense e o Gemma é MoE, então uma comparação direta é difícil

eoeoe 28 일 전

Pena que o rumor dos 120b infelizmente não era real.

Google revela o modelo aberto Gemma 4

Gemma 4 — o modelo aberto de IA da próxima geração

Configuração do modelo e eficiência

Recursos principais

Agentic workflows

Multimodal reasoning

Support for 140 languages

Fine tuning

Efficient architecture

Desempenho

E2B e E4B — para mobile e IoT

26B e 31B — IA local de alto desempenho

Segurança e confiabilidade

Download e execução

Download dos pesos do modelo

Suporte para treinamento e implantação

Comunidade Gemmaverse

Leituras relacionadas

2 comentários

Comentários do Hacker News