10 pontos por GN⁺ 28 일 전 | 2 comentários | Compartilhar no WhatsApp
  • O Google DeepMind anunciou o Gemma 4, a nova geração de modelos abertos de IA baseada na tecnologia do Gemini 3, projetada com uma arquitetura que maximiza a eficiência de inteligência por parâmetro
  • O modelo é oferecido em quatro tamanhos: E2B, E4B, 26B e 31B, com suporte a uma ampla faixa de execução, de dispositivos móveis e IoT até ambientes com GPU pessoal
  • Inclui recursos principais como raciocínio multimodal, suporte a 140 idiomas, workflows agentic, fine-tuning detalhado e arquitetura eficiente
  • O desempenho em matemática, código e compreensão multimodal melhorou significativamente em relação ao Gemma 3, enquanto os padrões de segurança e confiabilidade permanecem no mesmo nível dos modelos comerciais do Google
  • Os pesos do modelo podem ser baixados em Hugging Face, Ollama, Kaggle, LM Studio e Docker, com suporte para execução integrada em ambientes locais e na nuvem

Gemma 4 — o modelo aberto de IA da próxima geração

  • O Gemma 4 é o mais recente modelo aberto do Google DeepMind, desenvolvido com base nas pesquisas e tecnologias do Gemini 3, com uma arquitetura voltada a maximizar a eficiência de inteligência por parâmetro (intelligence-per-parameter)
  • O modelo é oferecido em quatro tamanhos: E2B, E4B, 26B e 31B, podendo rodar em diversos ambientes, de dispositivos móveis e IoT a workstations pessoais
  • Entre os principais recursos estão raciocínio multimodal, suporte a 140 idiomas, workflows agentic, fine-tuning detalhado e arquitetura eficiente
  • Nos benchmarks de desempenho, registrou melhorias gerais em relação ao Gemma 3, com pontuações especialmente altas em matemática, código e compreensão multimodal
  • Os padrões de segurança e confiabilidade permanecem no mesmo nível dos modelos comerciais do Google, e os pesos do modelo podem ser baixados em Hugging Face, Ollama, Kaggle, LM Studio e Docker

Configuração do modelo e eficiência

  • O Gemma 4 foi projetado com base na tecnologia do Gemini 3 e adota uma arquitetura de modelo aberto que maximiza a eficiência de inteligência
  • Os tamanhos do modelo são divididos em quatro versões: E2B, E4B, 26B e 31B, e cada uma é otimizada de acordo com os recursos computacionais e a eficiência de memória
    • E2B e E4B: para dispositivos móveis e IoT, com suporte a máxima eficiência e execução offline
    • 26B e 31B: oferecem capacidade de raciocínio de nível frontier em ambientes com GPU pessoal

Recursos principais

  • Agentic workflows

    • Suporta function calling nativamente, permitindo criar agentes autônomos capazes de planejar, explorar apps e executar tarefas em nome do usuário
  • Multimodal reasoning

    • Combina entendimento de áudio e visão para dar suporte ao desenvolvimento de aplicações multimodais ricas
  • Support for 140 languages

    • Vai além da simples tradução, permitindo criar experiências multilíngues que incluem compreensão de contexto cultural
  • Fine tuning

    • Permite fine-tuning para melhorar o desempenho em tarefas específicas usando os frameworks e técnicas preferidos do usuário
  • Efficient architecture

    • Pode rodar em hardware próprio, oferecendo um ambiente eficiente de desenvolvimento e implantação

Desempenho

  • O Gemma 4 foi avaliado com base em diversos datasets e métricas relacionados à geração de texto
  • Principais resultados de benchmark (com base no Gemma 4 31B IT):
    • Arena AI (text): 1452 (contra 1365 do Gemma 3 27B)
    • MMMLU (perguntas e respostas multilíngues): 85.2%
    • MMMU Pro (raciocínio multimodal): 76.9%
    • AIME 2026 (matemática): 89.2%
    • LiveCodeBench v6 (problemas de programação): 80.0%
    • GPQA Diamond (conhecimento científico): 84.3%
    • τ2-bench (uso de ferramentas por agentes): 86.4%
  • De modo geral, apresenta melhor desempenho em todos os itens em relação ao Gemma 3, com avanços especialmente grandes em matemática, código e compreensão multimodal

E2B e E4B — para mobile e IoT

  • Com suporte a áudio e visão, permite processamento em tempo real em dispositivos de edge
  • Oferece execução totalmente offline e desempenho com latência quase zero em smartphones, Raspberry Pi e Jetson Nano
  • Pode ser testado via Google AI Edge Gallery

26B e 31B — IA local de alto desempenho

  • Oferece recursos avançados de raciocínio adequados para IDEs, assistentes de código e workflows agentic
  • É otimizado para GPUs de consumo, permitindo que estudantes, pesquisadores e desenvolvedores montem um ambiente local de servidor de IA
  • Pode ser executado diretamente no Google AI Studio

Segurança e confiabilidade

  • O Gemma 4 aplica os mesmos protocolos de segurança de infraestrutura dos modelos comerciais do Google
  • Fornece uma base transparente e confiável para uso por empresas e órgãos públicos
  • Entrega recursos de IA de última geração mantendo os mais altos padrões de segurança e confiabilidade

Download e execução

  • Download dos pesos do modelo

    • Os pesos do Gemma 4 estão disponíveis em Hugging Face, Ollama, Kaggle, LM Studio e Docker Hub
  • Suporte para treinamento e implantação

    • Integração com diversas plataformas, como Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine e Ollama
    • É possível configurar ambientes de treinamento, implantação e inferência por meio da documentação oficial e APIs

Comunidade Gemmaverse

  • Pelo Gemmaverse, é possível explorar projetos criados por desenvolvedores do mundo todo usando o Gemma
  • Atualizações mais recentes são publicadas pelos canais do Google DeepMind no X, Instagram, YouTube, LinkedIn e GitHub
  • Também é possível assinar para receber as últimas novidades sobre inovação em IA

2 comentários

 
GN⁺ 28 일 전
Comentários do Hacker News
  • Foi divulgada uma versão do Gemma 4 que integra recursos de reasoning, multimodalidade e chamada de ferramentas
    É possível baixar modelos quantizados na coleção do Hugging Face, e o guia da Unsloth também foi disponibilizado
    Os parâmetros recomendados são temperature=1.0, top_p=0.95, top_k=64, o EOS é " e o thinking trace usa <|channel>thought\n

    • O trabalho do Daniel está mudando o mundo
      Eu montei um pipeline de OCR, embeddings e sumarização para tornar pesquisáveis registros fundiários do século XIX
      Com GGUF e llama.cpp, a busca multilíngue se tornou possível, e uma latência de processamento de 1 minuto não parece problema algum
    • Tentei desligar o “thinking” no llama.cpp, mas --reasoning-budget 0 e --chat-template-kwargs '{"enable_thinking":false}' não funcionaram
      Descobri que é preciso usar a nova flag --reasoning off
      Testei unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL em um MacBook Air M4 (32GB), e achei muito mais impressionante que o qwen3.5-35b-a3b
    • A captura de tela da etapa “Search and download Gemma 4” no guia está mostrando o qwen3.5, e no Unsloth Studio só aparecem modelos Gemma 3
    • Pergunta de iniciante, mas gostaria de entender por que usar esta versão em vez do modelo original
    • Ao instalar o Gemma 4 com Unsloth no Windows 11, ocorreu um erro na etapa de definir a senha
      O PowerShell instalou vários componentes e pediu para abrir uma URL localhost, mas falhou logo em seguida
      Como não sou desenvolvedor, tenho pouca familiaridade com PowerShell e foi difícil; seria bom se fosse distribuído como um executável único (.exe)
  • Testei os modelos Gemma 4 no LM Studio
    Os modelos 2B e 4B geraram imagens estranhas de pelicano, enquanto o modelo 26B-A4B produziu o melhor resultado que já vi até agora
    Compartilhei os resultados do teste
    O modelo 31B só imprimiu ---\n localmente, mas funcionou normalmente na API do AI Studio

    • Graças ao benchmark do pelicano, acabo conferindo os comentários no Hacker News a cada novo lançamento de modelo
    • Fico pensando se o pelicano agora não virou parte dos dados de treinamento
    • Seria ótimo ter uma página de galeria para ver todas as imagens de pelicano de uma vez
      Ex.: clocks.brianmoore.com
    • Parece que a qualidade dos pelicanos seria bem melhor usando a versão instruction-tuned
    • Queria saber em que especificação de notebook isso foi executado
  • Organizei uma tabela comparando benchmarks do Gemma 4 e do Qwen 3.5
    Inclui vários indicadores, como MMLU-Pro, GPQA e Codeforces ELO

    • A pontuação ELO está bem diferente do gráfico do tfa
      Há partes em que o resultado se inverte ao comparar Qwen 3.5-27B com Gemma 4 26B/31B
      Foi impressionante a equipe da Unsloth ter publicado o GGUF tão rápido, e se estiver no mesmo nível do Qwen 3.5, isso é muito animador
    • Quem tem uma GPU de 24GB pode não saber muito bem qual modelo escolher com base nessa tabela
    • Inverter os eixos e remover alguns modelos pode, na verdade, induzir ao erro
      Os modelos menores do Gemma são muito mais fracos que os modelos pequenos do Qwen
      Veja Qwen3.5-4B e esta thread no Reddit sobre o Gemma 4
  • Sou uma das pessoas da equipe do Gemma que participou deste grande lançamento
    Posso responder perguntas, se houver

    • Gostaria de saber se há planos de lançar uma versão com QAT (treinamento com consciência de quantização), como no Gemma 3
      Veja o blog relacionado
    • Queria entender por que desta vez não houve uma versão 12B
      Eu esperava um modelo intermediário para competir com o Qwen3.5 9B
    • Gostaria de saber se “major number release” realmente significa aumento na escala de recursos computacionais ou se indica uma transição para uma nova arquitetura
    • Perguntaram se existe algum motivo para o desempenho parecer baixo em benchmarks além da pontuação ELO
      Talvez o próprio benchmark esteja distorcendo a comparação
    • Nos meus testes, o desempenho pareceu quase no nível do Gemini 3 Pro, com custo 10 vezes menor
      Link de comparação
  • Comparei o Gemma 4 e o Qwen 3.5 com um prompt de cálculo de timestamp Unix
    O Qwen pensou por mais de 8 minutos e deu a resposta certa, enquanto o Gemma deu um resultado errado em 30 segundos
    O Gemma errou porque escreveu um script em Python, mas não conseguiu executá-lo

    • Para que o modelo realmente execute código, é preciso um ambiente de agentic harness com sandbox e especificação fornecida
      Caso contrário, ele só consegue chutar
    • O comando date funciona corretamente em ambiente GNU
      No macOS é preciso instalar gdate (brew install coreutils)
    • Em um ambiente com RX 9070 XT (24GB de VRAM), obtive o resultado correto mesmo executando sem ferramentas
      Link do gist
    • O autor do comentário original não deu ao modelo permissão para executar comandos de verdade
      O resultado foi apenas uma execução “imaginada” pelo modelo
    • A última frase foi engraçada
  • O MAX nightly da Modular é a implementação open source mais rápida no Blackwell e no AMD MI355
    Segundo o blog da Modular, já pode ser instalado direto via pip

    • Perguntaram se ele é mais rápido que o TensorRT-LLM, ou se a razão é que o TensorRT-LLM não é considerado open source
    • Gostaria de saber qual é o ganho de velocidade em relação ao PyTorch
  • O benchmark do Gemma 4 centrado em ELO pode ser enganoso
    Ele fica abaixo do Qwen 3.5 27B na maioria dos indicadores
    Ainda assim, os modelos 2B e 4B são interessantes para ASR e OCR

    • Benchmarks públicos são fáceis de manipular
      Eu confio mais na pontuação do Lmarena (baseada em avaliação humana)
    • Nos meus testes pessoais, ele mostrou resultados bem bons fora da área de programação
      Link de comparação
    • Modelos chineses têm desempenho baixo em testes privados como o arc-agi 2
    • Benchmark serve só como referência; o mais preciso é testar diretamente no caso de uso real
    • Não está claro o que exatamente a métrica “ELO Score” significa
  • Finalmente saiu o lançamento que eu estava esperando
    Com mais uma ou duas iterações, parece que vai atender à maior parte das necessidades até em ambiente self-hosted

    • Também concordo, mas minhas “necessidades do dia a dia” ficam mais complexas a cada ano
      Antes bastava pergunta e resposta simples, mas agora espero algo no nível de agente de programação
      Modelos abertos ainda não chegaram lá, mas este lançamento é promissor
    • Gemma3:27b e Qwen3-vl:30b-a3b são os LLMs locais que mais uso
      Eles dão conta da maior parte do meu trabalho de tradução, classificação e categorização
    • Fico curioso para saber em que tipo de tarefa você usa self-hosting
  • A melhor parte deste lançamento é a licença Apache 2.0
    Há modelos E2B, E4B (para mobile), 26B-A4B (MoE) e 31B (dense grande)
    As versões mobile suportam entrada de áudio, e o 31B é forte em tarefas agentic
    O 26B-A4B tem eficiência de VRAM parecida, mas velocidade de inferência muito maior

  • Comparei um pequeno projeto em Rust entre o Gemma 4 26B e o Qwen 3.5 27B
    O Qwen desistiu depois de mais de 1 hora, e o Gemma desistiu em 20 minutos
    No resumo do Codex, o Qwen teve maior completude estrutural, enquanto o Gemma foi mais rápido, porém incompleto
    Concordo com essa avaliação

    • No momento, há um bug no chat template que deixa a chamada de ferramentas instável
      Veja o PR relacionado e a issue
      Não se deve tirar conclusões cedo demais logo após o lançamento
    • O Qwen 3.5 27B é um modelo dense, então a comparação correta é com o Gemma 4 31B
      O 26B-A4B deveria ser comparado com o Qwen 3.5 35B-A3B
    • O Qwen é dense e o Gemma é MoE, então uma comparação direta é difícil
 
eoeoe 28 일 전

Pena que o rumor dos 120b infelizmente não era real.