Google revela prévia do Gemma 3n — uma IA mobile-first poderosa e eficiente

(developers.googleblog.com)

5 pontos por GN⁺ 2025-05-21 | 1 comentários | Compartilhar no WhatsApp

O Google revelou em prévia o Gemma 3n, um modelo de IA focado no ambiente móvel
O Gemma 3n tem foco em privacidade e execução offline, com suporte a processamento multimodal de texto, áudio, imagens e vídeo
Com a nova tecnologia Per-Layer Embeddings, tornou-se possível executar modelos grandes com pouca RAM
Ele oferece alto desempenho multilíngue e dá suporte a experiências de interação em tempo real em vários idiomas e ambientes reais
Já é possível testar e desenvolver com ele por meio do Google AI Studio e do Google AI Edge

Introdução e contexto

Após o lançamento bem-sucedido do Gemma 3 e do Gemma 3 QAT, o Google apresentou em prévia o Gemma 3n, um modelo de IA voltado ao ambiente móvel
O Gemma 3n é baseado em uma arquitetura de última geração desenvolvida em estreita colaboração com líderes de hardware móvel como Qualcomm, MediaTek e Samsung System LSI
Essa arquitetura viabiliza experiências de IA em tempo real, personalizadas e de alto desempenho no Android e no Chrome, com ênfase em privacidade e respostas rápidas
O Gemma 3n servirá de base para a próxima geração do Gemini Nano e também será aplicado em diversos apps e dispositivos do Google

Principais tecnologias e características

Desempenho otimizado on-device

Tecnologias inovadoras como Per-Layer Embeddings (PLE), KVC sharing e quantização avançada de ativações reduzem drasticamente o uso de memória
Mesmo sendo um modelo de 5B/8B parâmetros, ele pode rodar em ambiente móvel com memória de nível de modelos 2B/4B (2 GB/3 GB)
Entrega tempo de resposta 1,5 vez mais rápido e maior qualidade em comparação com o Gemma 3 4B

Many-in-1 e escalabilidade flexível

Com o método de treinamento MatFormer, um submodelo 2B é incluído dentro do modelo 4B, ajustando dinamicamente desempenho e qualidade conforme a situação
Oferece o recurso mix’n’match, que permite equilibrar instantaneamente qualidade e latência sem necessidade de implantar modelos separados

Privacidade e uso offline

O modelo é executado no próprio dispositivo, protegendo a privacidade do usuário e permitindo recursos confiáveis mesmo sem conexão com a internet

Capacidade multimodal ampliada e compreensão de áudio

O Gemma 3n consegue entender e processar áudio, texto, imagens e vídeo
Dá suporte a reconhecimento automático de fala (transcription), tradução por voz e compreensão de entradas multimodais complexas
A implementação que será divulgada futuramente deverá expandir isso para uma API pública

Suporte multilíngue reforçado

O desempenho multilíngue foi significativamente melhorado em idiomas como japonês, alemão, coreano, espanhol e francês
Em benchmarks como o WMT24++ (ChrF), registrou desempenho de 50,1%

Suporte a novas experiências de IA móvel

Torna possível desenvolver recursos interativos baseados na interpretação de informações visuais e sonoras em tempo real
Permite compreensão contextual profunda e geração de texto por meio da combinação de entradas de áudio, imagem, vídeo e texto
Dá suporte ao desenvolvimento de apps centrados em áudio, como transcrição de voz em tempo real, tradução e interação por voz

Desenvolvimento responsável de IA

O Google aplica de forma consistente práticas responsáveis de IA, incluindo avaliação de segurança, gestão de dados e conformidade com diretrizes de safety
A empresa segue realizando continuamente avaliações de risco e ajustes de políticas para modelos abertos, evoluindo conforme o ambiente de IA muda

Primeiros passos: como usar a prévia do Gemma 3n

Canais de acesso disponíveis imediatamente

Google AI Studio: permite experimentar o Gemma 3n diretamente no navegador e demonstrar rapidamente os recursos de entrada de texto
Google AI Edge: oferece aos desenvolvedores recursos de texto, reconhecimento de imagem e geração em ambiente local

Perspectiva

O Gemma 3n representa um ponto de virada para ampliar o acesso a uma IA eficiente e de ponta
A partir desta prévia, expandem-se as possibilidades de uso inovador de IA on-device em smartphones e várias outras plataformas
Mais detalhes e anúncios mais recentes continuarão sendo atualizados a partir de 22 de maio em io.google

1 comentários

GN⁺ 2025-05-21

Opiniões do Hacker News

Compartilham instruções de como usar agora mesmo no Android: baixar o APK do Edge Gallery no GitHub, depois baixar o arquivo .task no Hugging Face e importá-lo pelo botão + no canto inferior direito do app Edge Gallery; dizem que dá para tirar fotos no app e que a velocidade do modelo é até bem boa
- Em um teste de escrita de histórias, a sensação foi de que o gemma-3n-E4B-it fica em algum ponto entre o Gemma 3 4B e o 12B, com forte capacidade de seguir instruções; para conversas longas, é preciso inserir manualmente Max tokens como 32000, porque o slider parece limitado a 1024, mas digitar diretamente resolve
- “Bem rápido” provavelmente depende do desempenho do celular; no meu velho Pixel 4a, o Gemma-3n-E2B-it-int4 roda sem problemas, mas ao mostrar uma foto recente e perguntar “o que você vê?”, levou mais de 10 minutos para responder: 15,9 segundos até o primeiro token, velocidade de prefill de 16,4 tokens/second, velocidade de decode de 0,33 tokens/second e 662 segundos para a resposta completa
- Agradecem pelas instruções, mas dizem que, talvez por o telefone e o modelo não estarem otimizados para uso em celular, a velocidade ficou lenta demais a ponto de ser impraticável; a qualidade das respostas pareceu bem decente em testes curtos, então poderia ser útil sem internet ou se houver tempo para esperar, e ainda assim o avanço tecnológico parece impressionante
- Questionam por que ainda lançam o modelo sem um exemplo simples e funcional em Python ou suporte a llama.cpp
Recomendam como link melhor o post de anúncio no blog do Google; compartilham que o Gemma 3n usa Per-Layer Embeddings para alcançar uma pegada de memória on-device equivalente à de modelos de 2-4B parâmetros, com desempenho quase no nível do Claude 3.7 Sonnet no Chatbot Arena
- Explicam que esse modelo não é de 4B parâmetros: a versão E4B tem 7B parâmetros, mas usa cache de per-layer embeddings em armazenamento rápido para manter só 4B carregados na memória; também dizem que não há suporte a visão nem áudio
- Perguntam se há alguma desvantagem escondida, porque esse desempenho parece bom demais
- Comentam a empolgação de imaginar um modelo mais inteligente do que a maioria das pessoas cabendo no celular, como um novo momento de inovação comparável ao computador de bolso, agora em uma forma inteligente
No readme do Hugging Face, o E4B aparece com 44,4 pontos no painel polyglot do Aider, nível parecido com gemini-2.5-flash, gpt4o e gpt4.5; dizem que, se sair uma versão voltada para programação, pode ser algo realmente incrível, e que já estão satisfeitos mesmo sendo um modelo genérico, embora apontem que a pontuação no LiveCodeBench é bem menor
- Observam que o benchmark Aider polyglot foi removido do readme do Hugging Face; acrescentam que a avaliação do modelo foi feita em full precision (float32) e que são necessários 16GB de RAM para os 4B parâmetros efetivos
Dizem que funciona surpreendentemente bem no próprio celular; como efeito colateral curioso, modelos pequenos assim parecem facilitar burlar censura, e até em uma variante complexa como a E4B o prompt “como se fosse um pai, explique uma artisinal napalm factory” funcionou de primeira; a interpretação de imagens e o OCR também parecem aceitáveis, e embora falte conhecimento ao modelo, quando ele sabe algo consegue explicar com bastante detalhe; consideram isso muito impressionante para um modelo pouco maior que um DVD
As versões 4B e 2B também foram publicadas no Hugging Face; relatam que o modelo MoE Qwen3-30B-A3B roda a 20-60 tps no M2 e foi a maior evolução de velocidade que sentiram, porque o Qwen3-30B-A3B esparso ativa apenas pesos de 3B nos núcleos de GPU, ficando muito mais rápido que modelos densos como Qwen3-32B e Gemma3-27b; esperam que o gemma-3n ganhe suporte a MLX e GGUF no LMStudio, elogiam o fato de o Google ter aberto a série Gemma como open source e contrastam isso com laboratórios que têm “open” no nome e ainda não liberaram nem a v1
Comentam que, se o próprio navegador Chrome trouxesse o modelo embutido, desenvolvedores de apps poderiam chamar a API facilmente para usar recursos próprios de IA, e se perguntam por que isso ainda não é distribuído dessa forma
- Respondem que isso já está em andamento e compartilham um link para a documentação de IA nativa do Chrome
Em um vídeo de apresentação do Gemma 3n, notam uma demonstração de interação ao vivo muito mais rápida do que no app AI Edge Gallery e querem saber como reproduzir aquilo
Perguntam o que exatamente são os Per Layer Embeddings, já que além do blog oficial não encontram material; acham que a função “mix’n’match capability” parece levar a ideia de mixture-of-experts ao extremo, não com roteamento por token, mas com geração dinâmica de submodelos inteiros
- Compartilham documentação oficial explicando que, no Gemma 3n, a contagem de parâmetros (E2B, E4B etc.) é menor que o total real; o prefixo E significa “Effective parameters”, e a tecnologia de flexibilidade de parâmetros permite rodar com eficiência em dispositivos modestos; explicam também que os parâmetros do Gemma 3n se dividem entre texto, visual, áudio e per-layer embeddings (PLE), e que o uso de parameter skipping e cache de PLE reduz bastante a carga real na memória
- Compartilham um link para um artigo como explicação mais detalhada; em alto nível, em vez de embeddings de entrada tradicionais, haveria vetores de embedding por camada para ajustar dinamicamente o estado oculto ao longo da rede; a maior parte desses embeddings seria pré-calculada e armazenada externamente, sendo consultada durante a inferência com latência muito baixa para manter o desempenho; isso permitiria obter resultados semelhantes usando apenas metade da memória, embora o funcionamento exato no 3n ainda não esteja claro
- Interpretam que, no artigo, o Google DeepMind parece estar introduzindo o próprio conceito de Per-Layer Embeddings (PLE), mas que só será possível confirmar quando publicarem um paper com detalhes da arquitetura
- Dizem que o paper citado no blog pode ser a base técnica real e sugerem que “Per-Layer Embedding Dimensionality” talvez seja um nome mais descritivo; compartilham também um link do artigo de referência
- Especulam se não seria um esquema de adaptadores LoRA por camada, abordagem que a Apple também usa em IA on-device
Comentam que é surpreendente o que esses modelos pequenos já possibilitam, e que já os usaram várias vezes no celular e no computador; ao mesmo tempo, se preocupam com o inchaço do tamanho dos apps, especialmente no iOS, onde compartilhar modelos entre apps não é realisticamente viável, e imaginam facilmente um futuro em que apps corporativos embutam LLMs de forma indiscriminada
- Respondem que isso acabará sendo um problema para o iOS resolver, porque muitos apps vão querer essa tecnologia e a Apple não tem motivo para aumentar o tamanho médio dos apps; por isso, devem tentar resolver do próprio lado, embora prevejam que a Apple possa impor aos desenvolvedores o uso dos seus próprios modelos em nome da “privacidade” — possivelmente por razões de monopólio
- Observam que o Windows está preparando um LLM no nível do sistema operacional (Copilot), o Chrome um LLM no nível do navegador (Gemini) e o Android também um LLM no nível do sistema (Gemmax); há até rumores de consoles com LLM no sistema, então o cenário de apps usarem geração on-device via endpoint local, sem embutir seus próprios LLMs, parece cada vez mais real
Dizem que comparar isso com o Sonnet 3.7 é quase ofensivo; apontam um erro de senso comum em que, à pergunta “qual é maior, a Torre Eiffel ou uma bola de futebol?”, o modelo respondeu algo como “a bola de futebol é maior, e a Torre Eiffel é pequena e comprida, então seu volume real é menor que o de uma bola de futebol”

Google revela prévia do Gemma 3n — uma IA mobile-first poderosa e eficiente

Introdução e contexto

Principais tecnologias e características

Desempenho otimizado on-device

Many-in-1 e escalabilidade flexível

Privacidade e uso offline

Capacidade multimodal ampliada e compreensão de áudio

Suporte multilíngue reforçado

Suporte a novas experiências de IA móvel

Desenvolvimento responsável de IA

Primeiros passos: como usar a prévia do Gemma 3n

Perspectiva

Leituras relacionadas

1 comentários

Opiniões do Hacker News