- O modelo open source Gemma 4, do Google, agora roda nativamente no iPhone sem conexão com a internet, realizando inferência totalmente offline
- O modelo 31B do Gemma 4 apresenta desempenho semelhante ao modelo 27B do Qwen 3.5, com cerca de 4 bilhões de parâmetros a mais
- As variantes E2B e E4B são modelos móveis otimizados para velocidade e controle térmico, e o app do Google recomenda o uso do E2B por padrão
- Pelo app Google AI Edge Gallery, o usuário pode escolher o modelo e executar inferência no dispositivo sem API nem nuvem
- Essa execução mostra a concretização da transição para IA on-device e é vista como um marco importante na expansão do ecossistema de edge AI
Execução on-device do Google Gemma 4 no iPhone
- O modelo open source Gemma 4, do Google, oferece inferência totalmente offline no iPhone e roda nativamente
- É possível realizar inferência local sem conexão com a internet
- A implantação de edge AI deixa de ser um desafio do futuro e passa a ser uma realidade tecnológica já em andamento
- Na comparação de desempenho, a variante 31B do Gemma 4 foi avaliada em nível semelhante ao modelo 27B do Qwen 3.5
- O Gemma tem cerca de 4 bilhões de parâmetros a mais
- Ambos os modelos têm pontos fortes diferentes dependendo da tarefa, sem vantagem absoluta
- As variantes E2B e E4B, otimizadas para mobile, ganham destaque
- Priorizam eficiência e favorecem velocidade, leveza e controle térmico
- O app do Google recomenda o uso do E2B por padrão
- O app Google AI Edge Gallery pode ser baixado na App Store e executado imediatamente
- O usuário escolhe a variante do modelo e realiza inferência diretamente no dispositivo
- Sem chamadas de API nem dependência de nuvem
- O app vai além de uma simples interface de texto e inclui reconhecimento de imagem, interação por voz e um framework de Skills expansível
- Foi projetado como uma plataforma de experimentação de IA on-device, utilizável por desenvolvedores e usuários avançados
Estrutura técnica e desempenho
- O Gemma 4 usa um caminho de inferência via GPU do iPhone
- A latência de resposta é muito baixa, comprovando que workloads de IA de alto desempenho também podem ser processados em hardware de consumo
- É visto como um caso importante que demonstra a viabilidade comercial da implantação local de IA
- A capacidade offline amplia bastante sua utilidade em ambientes corporativos
- Pode ser usada sem dependência de nuvem em trabalho de campo, ambientes médicos e áreas em que a privacidade dos dados é crucial
Significado e perspectivas
- A execução do Gemma 4 no iPhone não é apenas uma demonstração técnica, mas simboliza a chegada da era da IA on-device
- O Google está acelerando de fato a expansão do ecossistema de edge AI por meio do Gemma
- Como sugere a expressão “o Gemma saiu da garrafa”, a transição da IA para o ambiente local já começou
1 comentários
Comentários do Hacker News
O texto da matéria pareceu escrito por um LLM
Disseram que padrões como “It’s not mere X — it’s Y” se repetiam várias vezes
Descobriram que a inferência está sendo feita pela GPU, e não pelo Apple Neural Engine
Parece que os engenheiros do Google desistiram de compilar kernels customizados para os blocos tensoriais proprietários da Apple. O Metal é fácil de portar, mas consome muita bateria. Até que o backend do ANE seja reescrito, isso é mais um simples demo técnico
Criaram um app offline de programação (pucky) com Gemma 4 e o executaram no iPhone
Veja o link do GitHub. O modelo 4B também funciona, mas, por limitações de memória, o padrão é o 2B. Ele gera um único arquivo TypeScript e compila com
oxc. É difícil passar na revisão da App Store, então é preciso compilar manualmente com XcodeAparentemente a Apple está restringindo LLMs locais na App Store. Disseram que tentaram distribuir o próprio app e foram barrados pela cláusula 2.5.2
Compartilharam a thread relacionada Gemma 4 on iPhone
No iPhone 16 Plus, a velocidade é muito alta, mas cai rapidamente em mensagens longas. Disseram que não é por throttling térmico. Gostariam de ver dados de diagnóstico
Esperavam um app iOS Edge Gallery com Gemma 4, mas acharam desconfortável por causa de restrições de acesso a intents e da necessidade de plugins customizados para busca na web. O ChatMCP, por ser baseado em API, ainda é utilizável
Instalaram o Google AI Edge Gallery em um iPhone 16 Pro e rodaram benchmarks
Compartilharam resultados na GPU: Prefill 231t/s, Decode 16t/s, 1,16s até o primeiro token e 20s de inicialização
É preciso ter cuidado ao usar modelos pequenos
Quando perguntaram se um cachorro pode comer abacate, ele respondeu com confiança: “Yes”. É preciso entender as limitações do modelo
Suspeitaram que, mesmo offline, o Google vai coletar dados de entrada ou informações do dispositivo