3 pontos por GN⁺ 13 일 전 | 1 comentários | Compartilhar no WhatsApp
  • O modelo open source Gemma 4, do Google, agora roda nativamente no iPhone sem conexão com a internet, realizando inferência totalmente offline
  • O modelo 31B do Gemma 4 apresenta desempenho semelhante ao modelo 27B do Qwen 3.5, com cerca de 4 bilhões de parâmetros a mais
  • As variantes E2B e E4B são modelos móveis otimizados para velocidade e controle térmico, e o app do Google recomenda o uso do E2B por padrão
  • Pelo app Google AI Edge Gallery, o usuário pode escolher o modelo e executar inferência no dispositivo sem API nem nuvem
  • Essa execução mostra a concretização da transição para IA on-device e é vista como um marco importante na expansão do ecossistema de edge AI

Execução on-device do Google Gemma 4 no iPhone

  • O modelo open source Gemma 4, do Google, oferece inferência totalmente offline no iPhone e roda nativamente
    • É possível realizar inferência local sem conexão com a internet
    • A implantação de edge AI deixa de ser um desafio do futuro e passa a ser uma realidade tecnológica já em andamento
  • Na comparação de desempenho, a variante 31B do Gemma 4 foi avaliada em nível semelhante ao modelo 27B do Qwen 3.5
    • O Gemma tem cerca de 4 bilhões de parâmetros a mais
    • Ambos os modelos têm pontos fortes diferentes dependendo da tarefa, sem vantagem absoluta
  • As variantes E2B e E4B, otimizadas para mobile, ganham destaque
    • Priorizam eficiência e favorecem velocidade, leveza e controle térmico
    • O app do Google recomenda o uso do E2B por padrão
  • O app Google AI Edge Gallery pode ser baixado na App Store e executado imediatamente
    • O usuário escolhe a variante do modelo e realiza inferência diretamente no dispositivo
    • Sem chamadas de API nem dependência de nuvem
  • O app vai além de uma simples interface de texto e inclui reconhecimento de imagem, interação por voz e um framework de Skills expansível
    • Foi projetado como uma plataforma de experimentação de IA on-device, utilizável por desenvolvedores e usuários avançados

Estrutura técnica e desempenho

  • O Gemma 4 usa um caminho de inferência via GPU do iPhone
    • A latência de resposta é muito baixa, comprovando que workloads de IA de alto desempenho também podem ser processados em hardware de consumo
    • É visto como um caso importante que demonstra a viabilidade comercial da implantação local de IA
  • A capacidade offline amplia bastante sua utilidade em ambientes corporativos
    • Pode ser usada sem dependência de nuvem em trabalho de campo, ambientes médicos e áreas em que a privacidade dos dados é crucial

Significado e perspectivas

  • A execução do Gemma 4 no iPhone não é apenas uma demonstração técnica, mas simboliza a chegada da era da IA on-device
    • O Google está acelerando de fato a expansão do ecossistema de edge AI por meio do Gemma
    • Como sugere a expressão “o Gemma saiu da garrafa”, a transição da IA para o ambiente local já começou

1 comentários

 
GN⁺ 13 일 전
Comentários do Hacker News
  • O texto da matéria pareceu escrito por um LLM
    Disseram que padrões como “It’s not mere X — it’s Y” se repetiam várias vezes

    • Fizeram uma piada dizendo que era inacreditável duvidar dos padrões morais do “gizmoweek dot com”
    • Tanto faz se o autor era humano ou LLM. O problema é a falta de detalhes. Não há benchmarks por modelo de iPhone, e o conteúdo está quase vazio
    • Testaram com vários modelos, como Claude e Grok, e todos apontaram os problemas típicos de content farm, como ausência de fontes e frases repetitivas. Nem conseguiram provar que o autor é uma pessoa real
    • Ao ver o emoticon “:v”, alguém ficou feliz como se tivesse encontrado a geração millennial depois de muito tempo
    • Disseram ter a sensação de que a IA está nos treinando para evitar certos padrões de linguagem. Afirmaram que não querem virar reféns de linguagem fraca
  • Descobriram que a inferência está sendo feita pela GPU, e não pelo Apple Neural Engine
    Parece que os engenheiros do Google desistiram de compilar kernels customizados para os blocos tensoriais proprietários da Apple. O Metal é fácil de portar, mas consome muita bateria. Até que o backend do ANE seja reescrito, isso é mais um simples demo técnico

    • O ANE não é realmente adequado para rodar LLMs. O ecossistema de LLMs está padronizado em torno de CPU/GPU, e nem o MLX da Apple tem suporte a ANE
    • Mencionaram uma matéria da 9to5mac dizendo que, em alguns meses, na WWDC, será anunciado um framework Core AI para substituir o CoreML, e demonstraram expectativa
    • O ANE só é eficiente quando agrupa no mínimo 128 vetores. Isso é ineficiente para geração de tokens, mas, graças a técnicas modernas como Flash-MoE e DFlash, estão mais otimistas do que antes
    • O consumo de energia é aceitável, mas funções como escuta em segundo plano 24/7 não agradam por causa de questões de controle de privacidade
    • O app AI Edge Gallery no Android também usa só GPU. Então talvez não seja um problema dos blocos tensoriais da Apple, e sim falta de atenção do Google de forma geral
  • Criaram um app offline de programação (pucky) com Gemma 4 e o executaram no iPhone
    Veja o link do GitHub. O modelo 4B também funciona, mas, por limitações de memória, o padrão é o 2B. Ele gera um único arquivo TypeScript e compila com oxc. É difícil passar na revisão da App Store, então é preciso compilar manualmente com Xcode

  • Aparentemente a Apple está restringindo LLMs locais na App Store. Disseram que tentaram distribuir o próprio app e foram barrados pela cláusula 2.5.2

    • Previram que a Apple vai endurecer cada vez mais as regras sobre LLMs. Se os usuários puderem criar apps por conta própria, o modelo de negócios da Apple fica ameaçado
    • Mas as regras não parecem consistentes. No telefone da própria pessoa, Google Edge Gallery e Locally AI já funcionam normalmente
    • Citaram o texto completo da diretriz 2.5.2 da App Store e questionaram por que um LLM local se enquadraria nisso
    • Disseram que o próprio app incluía um LLM otimizado para ANE, funcionava totalmente offline e foi aprovado em apenas um dia. Analisaram que a Apple talvez esteja tentando filtrar apps de spam de IA. Também mencionaram uma matéria do MacRumors
    • Perguntaram se apps relacionados à Cactus Compute estão passando pelo mesmo problema
  • Compartilharam a thread relacionada Gemma 4 on iPhone

  • No iPhone 16 Plus, a velocidade é muito alta, mas cai rapidamente em mensagens longas. Disseram que não é por throttling térmico. Gostariam de ver dados de diagnóstico

    • A inferência de LLM tem complexidade O(tokens²), então é natural ficar mais lenta conforme o comprimento aumenta
  • Esperavam um app iOS Edge Gallery com Gemma 4, mas acharam desconfortável por causa de restrições de acesso a intents e da necessidade de plugins customizados para busca na web. O ChatMCP, por ser baseado em API, ainda é utilizável

  • Instalaram o Google AI Edge Gallery em um iPhone 16 Pro e rodaram benchmarks
    Compartilharam resultados na GPU: Prefill 231t/s, Decode 16t/s, 1,16s até o primeiro token e 20s de inicialização

  • É preciso ter cuidado ao usar modelos pequenos
    Quando perguntaram se um cachorro pode comer abacate, ele respondeu com confiança: “Yes”. É preciso entender as limitações do modelo

    • Alguém respondeu em tom de piada: “Tecnicamente, até pode comer...”
  • Suspeitaram que, mesmo offline, o Google vai coletar dados de entrada ou informações do dispositivo

    • Pelo código-fonte no GitHub, o conteúdo das mensagens não é coletado, mas estatísticas de uso do modelo são registradas
    • Compartilharam uma história curiosa de materiais internos de treinamento do Google que usam um produto fictício chamado ‘gShoe’ para discutir problemas de privacidade na coleta de dados
    • Também mencionaram que a Apple está pagando US$ 1 bilhão ao Google enquanto avança com sua estratégia de IA on-device, e que isso pode ser uma prévia do que vem por aí