Google Gemma 4 passa a oferecer inferência de IA totalmente offline no iPhone

(gizmoweek.com)

3 pontos por GN⁺ 13 일 전 | 1 comentários | Compartilhar no WhatsApp

O modelo open source Gemma 4, do Google, agora roda nativamente no iPhone sem conexão com a internet, realizando inferência totalmente offline
O modelo 31B do Gemma 4 apresenta desempenho semelhante ao modelo 27B do Qwen 3.5, com cerca de 4 bilhões de parâmetros a mais
As variantes E2B e E4B são modelos móveis otimizados para velocidade e controle térmico, e o app do Google recomenda o uso do E2B por padrão
Pelo app Google AI Edge Gallery, o usuário pode escolher o modelo e executar inferência no dispositivo sem API nem nuvem
Essa execução mostra a concretização da transição para IA on-device e é vista como um marco importante na expansão do ecossistema de edge AI

Execução on-device do Google Gemma 4 no iPhone

O modelo open source Gemma 4, do Google, oferece inferência totalmente offline no iPhone e roda nativamente
- É possível realizar inferência local sem conexão com a internet
- A implantação de edge AI deixa de ser um desafio do futuro e passa a ser uma realidade tecnológica já em andamento
Na comparação de desempenho, a variante 31B do Gemma 4 foi avaliada em nível semelhante ao modelo 27B do Qwen 3.5
- O Gemma tem cerca de 4 bilhões de parâmetros a mais
- Ambos os modelos têm pontos fortes diferentes dependendo da tarefa, sem vantagem absoluta
As variantes E2B e E4B, otimizadas para mobile, ganham destaque
- Priorizam eficiência e favorecem velocidade, leveza e controle térmico
- O app do Google recomenda o uso do E2B por padrão
O app Google AI Edge Gallery pode ser baixado na App Store e executado imediatamente
- O usuário escolhe a variante do modelo e realiza inferência diretamente no dispositivo
- Sem chamadas de API nem dependência de nuvem
O app vai além de uma simples interface de texto e inclui reconhecimento de imagem, interação por voz e um framework de Skills expansível
- Foi projetado como uma plataforma de experimentação de IA on-device, utilizável por desenvolvedores e usuários avançados

Estrutura técnica e desempenho

O Gemma 4 usa um caminho de inferência via GPU do iPhone
- A latência de resposta é muito baixa, comprovando que workloads de IA de alto desempenho também podem ser processados em hardware de consumo
- É visto como um caso importante que demonstra a viabilidade comercial da implantação local de IA
A capacidade offline amplia bastante sua utilidade em ambientes corporativos
- Pode ser usada sem dependência de nuvem em trabalho de campo, ambientes médicos e áreas em que a privacidade dos dados é crucial

Significado e perspectivas

A execução do Gemma 4 no iPhone não é apenas uma demonstração técnica, mas simboliza a chegada da era da IA on-device
- O Google está acelerando de fato a expansão do ecossistema de edge AI por meio do Gemma
- Como sugere a expressão “o Gemma saiu da garrafa”, a transição da IA para o ambiente local já começou

1 comentários

GN⁺ 13 일 전

Comentários do Hacker News

O texto da matéria pareceu escrito por um LLM
Disseram que padrões como “It’s not mere X — it’s Y” se repetiam várias vezes
- Fizeram uma piada dizendo que era inacreditável duvidar dos padrões morais do “gizmoweek dot com”
- Tanto faz se o autor era humano ou LLM. O problema é a falta de detalhes. Não há benchmarks por modelo de iPhone, e o conteúdo está quase vazio
- Testaram com vários modelos, como Claude e Grok, e todos apontaram os problemas típicos de content farm, como ausência de fontes e frases repetitivas. Nem conseguiram provar que o autor é uma pessoa real
- Ao ver o emoticon “:v”, alguém ficou feliz como se tivesse encontrado a geração millennial depois de muito tempo
- Disseram ter a sensação de que a IA está nos treinando para evitar certos padrões de linguagem. Afirmaram que não querem virar reféns de linguagem fraca
Descobriram que a inferência está sendo feita pela GPU, e não pelo Apple Neural Engine
Parece que os engenheiros do Google desistiram de compilar kernels customizados para os blocos tensoriais proprietários da Apple. O Metal é fácil de portar, mas consome muita bateria. Até que o backend do ANE seja reescrito, isso é mais um simples demo técnico
- O ANE não é realmente adequado para rodar LLMs. O ecossistema de LLMs está padronizado em torno de CPU/GPU, e nem o MLX da Apple tem suporte a ANE
- Mencionaram uma matéria da 9to5mac dizendo que, em alguns meses, na WWDC, será anunciado um framework Core AI para substituir o CoreML, e demonstraram expectativa
- O ANE só é eficiente quando agrupa no mínimo 128 vetores. Isso é ineficiente para geração de tokens, mas, graças a técnicas modernas como Flash-MoE e DFlash, estão mais otimistas do que antes
- O consumo de energia é aceitável, mas funções como escuta em segundo plano 24/7 não agradam por causa de questões de controle de privacidade
- O app AI Edge Gallery no Android também usa só GPU. Então talvez não seja um problema dos blocos tensoriais da Apple, e sim falta de atenção do Google de forma geral
Criaram um app offline de programação (pucky) com Gemma 4 e o executaram no iPhone
Veja o link do GitHub. O modelo 4B também funciona, mas, por limitações de memória, o padrão é o 2B. Ele gera um único arquivo TypeScript e compila com oxc. É difícil passar na revisão da App Store, então é preciso compilar manualmente com Xcode
- Sugeriram consultar a thread anterior no HN e trocar React Native por Swift
Aparentemente a Apple está restringindo LLMs locais na App Store. Disseram que tentaram distribuir o próprio app e foram barrados pela cláusula 2.5.2
- Previram que a Apple vai endurecer cada vez mais as regras sobre LLMs. Se os usuários puderem criar apps por conta própria, o modelo de negócios da Apple fica ameaçado
- Mas as regras não parecem consistentes. No telefone da própria pessoa, Google Edge Gallery e Locally AI já funcionam normalmente
- Citaram o texto completo da diretriz 2.5.2 da App Store e questionaram por que um LLM local se enquadraria nisso
- Disseram que o próprio app incluía um LLM otimizado para ANE, funcionava totalmente offline e foi aprovado em apenas um dia. Analisaram que a Apple talvez esteja tentando filtrar apps de spam de IA. Também mencionaram uma matéria do MacRumors
- Perguntaram se apps relacionados à Cactus Compute estão passando pelo mesmo problema
Compartilharam a thread relacionada Gemma 4 on iPhone
- Também mencionaram o caso de um iPhone 17 Pro rodando um LLM 400B, publicado 22 dias antes
No iPhone 16 Plus, a velocidade é muito alta, mas cai rapidamente em mensagens longas. Disseram que não é por throttling térmico. Gostariam de ver dados de diagnóstico
- A inferência de LLM tem complexidade O(tokens²), então é natural ficar mais lenta conforme o comprimento aumenta
Esperavam um app iOS Edge Gallery com Gemma 4, mas acharam desconfortável por causa de restrições de acesso a intents e da necessidade de plugins customizados para busca na web. O ChatMCP, por ser baseado em API, ainda é utilizável
Instalaram o Google AI Edge Gallery em um iPhone 16 Pro e rodaram benchmarks
Compartilharam resultados na GPU: Prefill 231t/s, Decode 16t/s, 1,16s até o primeiro token e 20s de inicialização
É preciso ter cuidado ao usar modelos pequenos
Quando perguntaram se um cachorro pode comer abacate, ele respondeu com confiança: “Yes”. É preciso entender as limitações do modelo
- Alguém respondeu em tom de piada: “Tecnicamente, até pode comer...”
Suspeitaram que, mesmo offline, o Google vai coletar dados de entrada ou informações do dispositivo
- Pelo código-fonte no GitHub, o conteúdo das mensagens não é coletado, mas estatísticas de uso do modelo são registradas
- Compartilharam uma história curiosa de materiais internos de treinamento do Google que usam um produto fictício chamado ‘gShoe’ para discutir problemas de privacidade na coleta de dados
- Também mencionaram que a Apple está pagando US$ 1 bilhão ao Google enquanto avança com sua estratégia de IA on-device, e que isso pode ser uma prévia do que vem por aí

Google Gemma 4 passa a oferecer inferência de IA totalmente offline no iPhone

Execução on-device do Google Gemma 4 no iPhone

Estrutura técnica e desempenho

Significado e perspectivas

Leituras relacionadas

1 comentários

Comentários do Hacker News