Google apresenta o Gemma 3n - a chegada de uma nova IA multimodal on-device
(developers.googleblog.com)- Gemma 3n é o mais novo modelo de IA multimodal on-device para ambientes mobile e edge, capaz de processar imagem, áudio, vídeo e texto
- Com uma arquitetura focada em eficiência e inovações arquiteturais (MatFormer, Per-Layer Embeddings, MobileNet-V5 etc.), entrega desempenho no nível de grandes modelos em nuvem usando 2~3 GB de memória
- Disponível em dois tamanhos de modelo, E2B e E4B, com suporte a tamanhos personalizados detalhados para o hardware por meio da abordagem Mix-n-Match
- Pode ser aplicado imediatamente a vários casos de uso de IA on-device, como reconhecimento e tradução de voz, análise visual em tempo real e processamento multilíngue em 140 idiomas
- Integra-se amplamente ao principal ecossistema open source de IA, como Hugging Face, Ollama e llama.cpp, e pode ser usado imediatamente com várias ferramentas, APIs e SDKs
Visão geral e contexto
- O primeiro modelo Gemma, lançado no início do ano passado, ultrapassou 160 milhões de downloads e cresceu como um ecossistema chamado Gemmaverse
- Esse ecossistema inclui vários modelos especializados, como em segurança e saúde, além de muitos casos de uso inovadores criados com contribuições da comunidade
- Impulsionado por esse sucesso, o Google anunciou o lançamento oficial do Gemma 3n, projetado com foco em mobile
- Oferece ampla integração com ecossistemas e ferramentas amigáveis para desenvolvedores, como Hugging Face Transformers, llama.cpp, Google AI Edge e Ollama
- Apresenta em profundidade, sob a perspectiva do desenvolvedor, as principais inovações, benchmarks e formas de desenvolver com o Gemma 3n
O que há de novo no Gemma 3n?
- O Gemma 3n representa um novo salto para a IA on-device
- Oferece suporte multimodal nativo para entradas de texto, imagem, áudio e vídeo, com saída em texto
- Maximiza a eficiência e é disponibilizado em dois tamanhos de modelo, E2B (5B parâmetros) e E4B (8B parâmetros), podendo rodar mesmo com pouca memória (2 GB, 3 GB)
- Aplica arquiteturas inovadoras como MatFormer, Per Layer Embeddings, LAuReL e AltUp, além de incorporar novos encoders de áudio e visão
- Suporta 140 idiomas, compreensão multimodal em 35 idiomas, melhorias em matemática, código e raciocínio, e supera 1300 pontos no LMArena no caso do E4B
MatFormer: um modelo, vários tamanhos
- A arquitetura MatFormer (🪆Matryoshka Transformer) é uma nova estrutura de transformer projetada para escalabilidade e flexibilidade
- Ela aproveita o princípio da matriôshka russa, em que modelos menores ficam contidos de forma independente dentro de um modelo maior
- Durante o treinamento do E4B, o submodelo E2B é otimizado ao mesmo tempo, permitindo inferência até 2x mais rápida e dispensando o download separado de modelos pré-extraídos
- Com a abordagem Mix-n-Match, é possível criar modelos intermediários personalizados para restrições de hardware, usando feedforward networks ou layer skip
- No MatFormer Lab, é possível verificar a configuração ideal com base em benchmarks e gerar modelos
- No futuro, também há planos de oferecer suporte a elastic execution (troca dinâmica do tamanho do modelo em tempo real)
Per-Layer Embeddings (PLE): máxima eficiência de memória on-device
- Com Per-Layer Embeddings (embeddings por camada), o modelo melhora a qualidade e minimiza o uso de memória em implantações on-device
- Entre todos os parâmetros (5B/8B), apenas os embeddings são carregados e processados com eficiência na CPU, enquanto só o núcleo transformer (2B/4B) permanece na VRAM
- Graças a isso, ele pode operar sem perda de qualidade usando muito menos memória do que antes (cerca de 2B parâmetros no acelerador)
KV Cache Sharing: otimização para entradas de contexto longo
- O Gemma 3n adiciona o recurso KV Cache Sharing para processar rapidamente entradas sequenciais longas, como áudio e vídeo extensos
- Na etapa de prefill (processamento inicial da entrada), o cache KV de camadas intermediárias é compartilhado diretamente com camadas superiores, melhorando o desempenho em mais de 2x
- Isso permite reconhecer prompts de sequência longa mais rapidamente do que antes, aumentando a capacidade de resposta em aplicações multimodais em tempo real
Reconhecimento de áudio: suporte a STT e tradução
- Ele incorpora um encoder de áudio baseado no Universal Speech Model (USM), usando tokens de áudio em unidades de 160 ms como entrada para o modelo de linguagem
- Permite implementar reconhecimento de fala (ASR) e tradução de fala (AST) de alta qualidade on-device
- Alto desempenho foi confirmado em pares de idiomas importantes, como inglês↔espanhol, francês, italiano e português
- O uso de prompting com Chain-of-Thought pode melhorar a qualidade da tradução
- O encoder de áudio inicial (no lançamento) suporta clipes de até 30 segundos, com expansão planejada para streaming mais longo no futuro
MobileNet-V5: o mais novo encoder de visão
- O MobileNet-V5-300M integrado ao Gemma 3n é um encoder de visão de alta eficiência que oferece forte desempenho mesmo em dispositivos edge
- Suporta várias resoluções de entrada, como 256x256, 512x512 e 768x768 pixels, permitindo ajustar desempenho e nível de detalhe conforme a necessidade
- Com treinamento conjunto baseado em grandes datasets multimodais, alcança ampla compreensão de imagens e vídeos e é capaz de lidar bem com tarefas visuais específicas
- Pode realizar análise em tempo real a 60 quadros por segundo em um Google Pixel
- Em termos de arquitetura, aplica diversas inovações, como blocos baseados no MobileNet-V4 (universal inverted bottleneck, Mobile MQA), estrutura híbrida em pirâmide e adaptador Multi-Scale Fusion VLM
- Em comparação com o SoViT (baseline do Gemma 3), é superior com 13x mais velocidade, 46% menos parâmetros, memória 4x menor e maior precisão
- Informações adicionais sobre arquitetura, estratégia de expansão de dados e técnicas de destilação em deep learning serão divulgadas posteriormente no relatório técnico
Aplicação prática e uso
- Teste direto no AI Studio: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- Download/implantação do modelo: disponível imediatamente em Hugging Face, Kaggle, Ollama, llama.cpp e outros
- Integração com ferramentas e frameworks: suporte à maioria, incluindo Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo e Unsloth
- API e implantação em nuvem: implantação em vários ambientes, como Google GenAI API, Vertex AI e NVIDIA API
Principais cenários de uso on-device
- Assistente de IA em tempo real em smartphones/dispositivos edge, tradutor de voz, chatbot multimodal, análise visual em tempo real e IoT
- Internalização de serviços de IA em ambientes com recursos limitados
- Inovação em IA em ambientes offline ou com restrições de rede
Recursos para desenvolvedores
- Documentação oficial
- Download do modelo (HF)
- MatFormer Lab
- Teste no Google AI Studio
- Integração com o ecossistema open source, Ollama, MLX, llama.cpp etc.
Gemma 3n Impact Challenge
- Concurso para desenvolvimento de produtos com impacto social real usando recursos on-device, offline e multimodais
- Prêmio de $150,000, envio de vídeo e demo obrigatórios: https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1 comentários
Comentários no Hacker News
jinjasignifica aqui