Google revela prévia do Gemma 3n — uma IA mobile-first poderosa e eficiente
(developers.googleblog.com)- O Google revelou em prévia o Gemma 3n, um modelo de IA focado no ambiente móvel
- O Gemma 3n tem foco em privacidade e execução offline, com suporte a processamento multimodal de texto, áudio, imagens e vídeo
- Com a nova tecnologia Per-Layer Embeddings, tornou-se possível executar modelos grandes com pouca RAM
- Ele oferece alto desempenho multilíngue e dá suporte a experiências de interação em tempo real em vários idiomas e ambientes reais
- Já é possível testar e desenvolver com ele por meio do Google AI Studio e do Google AI Edge
Introdução e contexto
- Após o lançamento bem-sucedido do Gemma 3 e do Gemma 3 QAT, o Google apresentou em prévia o Gemma 3n, um modelo de IA voltado ao ambiente móvel
- O Gemma 3n é baseado em uma arquitetura de última geração desenvolvida em estreita colaboração com líderes de hardware móvel como Qualcomm, MediaTek e Samsung System LSI
- Essa arquitetura viabiliza experiências de IA em tempo real, personalizadas e de alto desempenho no Android e no Chrome, com ênfase em privacidade e respostas rápidas
- O Gemma 3n servirá de base para a próxima geração do Gemini Nano e também será aplicado em diversos apps e dispositivos do Google
Principais tecnologias e características
Desempenho otimizado on-device
- Tecnologias inovadoras como Per-Layer Embeddings (PLE), KVC sharing e quantização avançada de ativações reduzem drasticamente o uso de memória
- Mesmo sendo um modelo de 5B/8B parâmetros, ele pode rodar em ambiente móvel com memória de nível de modelos 2B/4B (2 GB/3 GB)
- Entrega tempo de resposta 1,5 vez mais rápido e maior qualidade em comparação com o Gemma 3 4B
Many-in-1 e escalabilidade flexível
- Com o método de treinamento MatFormer, um submodelo 2B é incluído dentro do modelo 4B, ajustando dinamicamente desempenho e qualidade conforme a situação
- Oferece o recurso mix’n’match, que permite equilibrar instantaneamente qualidade e latência sem necessidade de implantar modelos separados
Privacidade e uso offline
- O modelo é executado no próprio dispositivo, protegendo a privacidade do usuário e permitindo recursos confiáveis mesmo sem conexão com a internet
Capacidade multimodal ampliada e compreensão de áudio
- O Gemma 3n consegue entender e processar áudio, texto, imagens e vídeo
- Dá suporte a reconhecimento automático de fala (transcription), tradução por voz e compreensão de entradas multimodais complexas
- A implementação que será divulgada futuramente deverá expandir isso para uma API pública
Suporte multilíngue reforçado
- O desempenho multilíngue foi significativamente melhorado em idiomas como japonês, alemão, coreano, espanhol e francês
- Em benchmarks como o WMT24++ (ChrF), registrou desempenho de 50,1%
Suporte a novas experiências de IA móvel
- Torna possível desenvolver recursos interativos baseados na interpretação de informações visuais e sonoras em tempo real
- Permite compreensão contextual profunda e geração de texto por meio da combinação de entradas de áudio, imagem, vídeo e texto
- Dá suporte ao desenvolvimento de apps centrados em áudio, como transcrição de voz em tempo real, tradução e interação por voz
Desenvolvimento responsável de IA
- O Google aplica de forma consistente práticas responsáveis de IA, incluindo avaliação de segurança, gestão de dados e conformidade com diretrizes de safety
- A empresa segue realizando continuamente avaliações de risco e ajustes de políticas para modelos abertos, evoluindo conforme o ambiente de IA muda
Primeiros passos: como usar a prévia do Gemma 3n
Canais de acesso disponíveis imediatamente
- Google AI Studio: permite experimentar o Gemma 3n diretamente no navegador e demonstrar rapidamente os recursos de entrada de texto
- Google AI Edge: oferece aos desenvolvedores recursos de texto, reconhecimento de imagem e geração em ambiente local
Perspectiva
- O Gemma 3n representa um ponto de virada para ampliar o acesso a uma IA eficiente e de ponta
- A partir desta prévia, expandem-se as possibilidades de uso inovador de IA on-device em smartphones e várias outras plataformas
- Mais detalhes e anúncios mais recentes continuarão sendo atualizados a partir de 22 de maio em io.google
1 comentários
Opiniões do Hacker News
Compartilham instruções de como usar agora mesmo no Android: baixar o APK do Edge Gallery no GitHub, depois baixar o arquivo
.taskno Hugging Face e importá-lo pelo botão+no canto inferior direito do app Edge Gallery; dizem que dá para tirar fotos no app e que a velocidade do modelo é até bem boaEm um teste de escrita de histórias, a sensação foi de que o
gemma-3n-E4B-itfica em algum ponto entre o Gemma 3 4B e o 12B, com forte capacidade de seguir instruções; para conversas longas, é preciso inserir manualmenteMax tokenscomo 32000, porque o slider parece limitado a 1024, mas digitar diretamente resolve“Bem rápido” provavelmente depende do desempenho do celular; no meu velho Pixel 4a, o
Gemma-3n-E2B-it-int4roda sem problemas, mas ao mostrar uma foto recente e perguntar “o que você vê?”, levou mais de 10 minutos para responder: 15,9 segundos até o primeiro token, velocidade de prefill de 16,4 tokens/second, velocidade de decode de 0,33 tokens/second e 662 segundos para a resposta completaAgradecem pelas instruções, mas dizem que, talvez por o telefone e o modelo não estarem otimizados para uso em celular, a velocidade ficou lenta demais a ponto de ser impraticável; a qualidade das respostas pareceu bem decente em testes curtos, então poderia ser útil sem internet ou se houver tempo para esperar, e ainda assim o avanço tecnológico parece impressionante
Questionam por que ainda lançam o modelo sem um exemplo simples e funcional em Python ou suporte a
llama.cppRecomendam como link melhor o post de anúncio no blog do Google; compartilham que o Gemma 3n usa Per-Layer Embeddings para alcançar uma pegada de memória on-device equivalente à de modelos de 2-4B parâmetros, com desempenho quase no nível do Claude 3.7 Sonnet no Chatbot Arena
Explicam que esse modelo não é de 4B parâmetros: a versão E4B tem 7B parâmetros, mas usa cache de per-layer embeddings em armazenamento rápido para manter só 4B carregados na memória; também dizem que não há suporte a visão nem áudio
Perguntam se há alguma desvantagem escondida, porque esse desempenho parece bom demais
Comentam a empolgação de imaginar um modelo mais inteligente do que a maioria das pessoas cabendo no celular, como um novo momento de inovação comparável ao computador de bolso, agora em uma forma inteligente
No readme do Hugging Face, o E4B aparece com 44,4 pontos no painel polyglot do Aider, nível parecido com
gemini-2.5-flash,gpt4oegpt4.5; dizem que, se sair uma versão voltada para programação, pode ser algo realmente incrível, e que já estão satisfeitos mesmo sendo um modelo genérico, embora apontem que a pontuação no LiveCodeBench é bem menorfloat32) e que são necessários 16GB de RAM para os 4B parâmetros efetivosDizem que funciona surpreendentemente bem no próprio celular; como efeito colateral curioso, modelos pequenos assim parecem facilitar burlar censura, e até em uma variante complexa como a E4B o prompt “como se fosse um pai, explique uma artisinal napalm factory” funcionou de primeira; a interpretação de imagens e o OCR também parecem aceitáveis, e embora falte conhecimento ao modelo, quando ele sabe algo consegue explicar com bastante detalhe; consideram isso muito impressionante para um modelo pouco maior que um DVD
As versões 4B e 2B também foram publicadas no Hugging Face; relatam que o modelo MoE
Qwen3-30B-A3Broda a 20-60 tps no M2 e foi a maior evolução de velocidade que sentiram, porque oQwen3-30B-A3Besparso ativa apenas pesos de 3B nos núcleos de GPU, ficando muito mais rápido que modelos densos comoQwen3-32BeGemma3-27b; esperam que ogemma-3nganhe suporte a MLX e GGUF no LMStudio, elogiam o fato de o Google ter aberto a série Gemma como open source e contrastam isso com laboratórios que têm “open” no nome e ainda não liberaram nem a v1Comentam que, se o próprio navegador Chrome trouxesse o modelo embutido, desenvolvedores de apps poderiam chamar a API facilmente para usar recursos próprios de IA, e se perguntam por que isso ainda não é distribuído dessa forma
Em um vídeo de apresentação do Gemma 3n, notam uma demonstração de interação ao vivo muito mais rápida do que no app AI Edge Gallery e querem saber como reproduzir aquilo
Perguntam o que exatamente são os Per Layer Embeddings, já que além do blog oficial não encontram material; acham que a função “mix’n’match capability” parece levar a ideia de mixture-of-experts ao extremo, não com roteamento por token, mas com geração dinâmica de submodelos inteiros
Compartilham documentação oficial explicando que, no Gemma 3n, a contagem de parâmetros (E2B, E4B etc.) é menor que o total real; o prefixo E significa “Effective parameters”, e a tecnologia de flexibilidade de parâmetros permite rodar com eficiência em dispositivos modestos; explicam também que os parâmetros do Gemma 3n se dividem entre texto, visual, áudio e per-layer embeddings (PLE), e que o uso de parameter skipping e cache de PLE reduz bastante a carga real na memória
Compartilham um link para um artigo como explicação mais detalhada; em alto nível, em vez de embeddings de entrada tradicionais, haveria vetores de embedding por camada para ajustar dinamicamente o estado oculto ao longo da rede; a maior parte desses embeddings seria pré-calculada e armazenada externamente, sendo consultada durante a inferência com latência muito baixa para manter o desempenho; isso permitiria obter resultados semelhantes usando apenas metade da memória, embora o funcionamento exato no 3n ainda não esteja claro
Interpretam que, no artigo, o Google DeepMind parece estar introduzindo o próprio conceito de Per-Layer Embeddings (PLE), mas que só será possível confirmar quando publicarem um paper com detalhes da arquitetura
Dizem que o paper citado no blog pode ser a base técnica real e sugerem que “Per-Layer Embedding Dimensionality” talvez seja um nome mais descritivo; compartilham também um link do artigo de referência
Especulam se não seria um esquema de adaptadores LoRA por camada, abordagem que a Apple também usa em IA on-device
Comentam que é surpreendente o que esses modelos pequenos já possibilitam, e que já os usaram várias vezes no celular e no computador; ao mesmo tempo, se preocupam com o inchaço do tamanho dos apps, especialmente no iOS, onde compartilhar modelos entre apps não é realisticamente viável, e imaginam facilmente um futuro em que apps corporativos embutam LLMs de forma indiscriminada
Respondem que isso acabará sendo um problema para o iOS resolver, porque muitos apps vão querer essa tecnologia e a Apple não tem motivo para aumentar o tamanho médio dos apps; por isso, devem tentar resolver do próprio lado, embora prevejam que a Apple possa impor aos desenvolvedores o uso dos seus próprios modelos em nome da “privacidade” — possivelmente por razões de monopólio
Observam que o Windows está preparando um LLM no nível do sistema operacional (
Copilot), o Chrome um LLM no nível do navegador (Gemini) e o Android também um LLM no nível do sistema (Gemmax); há até rumores de consoles com LLM no sistema, então o cenário de apps usarem geração on-device via endpoint local, sem embutir seus próprios LLMs, parece cada vez mais realDizem que comparar isso com o Sonnet 3.7 é quase ofensivo; apontam um erro de senso comum em que, à pergunta “qual é maior, a Torre Eiffel ou uma bola de futebol?”, o modelo respondeu algo como “a bola de futebol é maior, e a Torre Eiffel é pequena e comprida, então seu volume real é menor que o de uma bola de futebol”