Executando um LLM de 400B no iPhone 17 Pro

(twitter.com/anemll)

6 pontos por GN⁺ 2026-03-24 | 1 comentários | Compartilhar no WhatsApp

Um LLM de 400 bilhões de parâmetros foi executado no iPhone 17 Pro, com velocidade de cerca de 0,6 token por segundo
O modelo usa arquitetura Mixture of Experts (MoE), e os pesos realmente ativados são de aproximadamente 5 bilhões de parâmetros
Foi reconstituído em uma versão com quantização de 4 bits, mas continua muito lento
Utiliza GPU·CPU RAM de forma combinada e carregamento por streaming via SSD
Foi feito um fork do Flash-Moe e ele foi publicado em Anemll/flash-moe (branch iOS-App)

1 comentários

GN⁺ 2026-03-24

Opiniões do Hacker News

Fiquei curioso se essa abordagem de streaming direto do SSD para a GPU é baseada no artigo da Apple de 2023, LLM in a Flash
- Sim. Resumi os detalhes relacionados neste post do meu blog
- Uma abordagem parecida também foi apresentada recentemente nesta thread do HN. Só que o iPhone Pro é limitado a 12GB de RAM, então isso não basta para armazenar a parte ativa do modelo. Também seria possível usar um armazenamento durável como o Intel Optane, mas o consumo de energia é alto demais para mobile
- Esse método não é muito diferente da arquitetura do Cerebus, que faz streaming dos weights
Sonhei que todo mundo carregava uma IA superinteligente no bolso, mas no fim só usavam para doomscrolling e catfishing, até o mundo acabar
- Parece um Nostradamus moderno
Meu iPad Air (M2) roda LLMs locais muito bem, mas em poucos segundos ele superaquece e entra em throttling quase imediatamente
- Fiquei me perguntando se alguém já fez um sistema de refrigeração líquida para iPad ou celular. Algo como um dispositivo selado preso na traseira do aparelho, circulando líquido de refrigeração
O Qwen3.5-397B-A17B na prática se comporta como um modelo de 17B. O título que omite a parte MoE é só propaganda exagerada.
Quantização também é meio que um código de trapaça, então um dia alguém pode acabar chamando um modelo com quantização de 1 bit de “modelo grande”
- Na prática ele se comporta mais como um modelo de cerca de 80B, e em conhecimento de mundo fica mais próximo de um modelo de 400B. A arquitetura do modelo, a quantização e até o tempo até o primeiro token estão todos divulgados, então não há muito espaço para mal-entendidos. Esse tipo de tentativa é menos para usuários comuns e mais um experimento técnico, quase como code golf
Existe a dúvida: “É um modelo de 400B, mas se usa arquitetura MoE, quantos parâmetros realmente ficam ativos?”
- No Qwen3.5-397B-A17B, 17B parâmetros ficam ativos. O código relacionado pode ser visto no repositório do app flash-moe para iOS
- Hoje em dia a maioria das empresas está adotando arquitetura MoE
Essa notícia me lembra de quando o llama.c surgiu pela primeira vez e todo mundo ficou empolgado porque rodar localmente finalmente tinha se tornado possível
Instalei o Termux em um celular Android antigo (LineageOS) e rodei o Ollama com um modelo pequeno dentro dele. O desempenho era horrível, mas funcionava
- Lembro de ter compilado e rodado um minerador de Bitcoin com Linux Deploy num Galaxy Note antigo. O desempenho era péssimo, mas dava a sensação de carregar um computador completo no bolso. Na época da Nokia, não dava para executar nada além de JS no navegador; o Android era realmente uma plataforma hackeável
- Só como referência, meu Pixel 8 roda o modelo Qwen3.5 4B a 2 tokens por segundo. No app PocketPal funciona bem, mas o app Cactus não funcionou
Os modelos MoE da Qwen têm uma queda brusca de desempenho quando a parte ativa cai para algo como 2B. Na inferência real, usam-se apenas dezenas de vezes menos parâmetros, então chamar isso de modelo 400B não faz muito sentido
Há a pergunta: “Quanto tempo vai levar para um modelo com esse nível de desempenho rodar a 100 tokens por segundo?”
- O único jeito é embutir o modelo diretamente no hardware. De fato, este post de blog apresenta um chip assim, mas ele é grande demais para caber em um smartphone
- Em smartphones, não vale a pena rodar modelos grandes desse tipo. É mais rápido e mais preciso fazer fine-tuning de modelos pequenos para usos específicos
- O modelo Apollo (LFM2) da Liquid AI roda bem rápido até em celulares e é útil para tarefas como resumir resultados de busca ou resolver problemas de matemática
- Realisticamente, acho impossível. Não existe solução de engenharia para isso
- Provavelmente vai levar de 15 a 20 anos. Dizer que esse modelo “roda” em um celular é tecnicamente verdade, mas só nesse sentido. Na prática, a capacidade de RAM e a largura de banda da memória são absurdamente insuficientes. Dá para fazer uma demo usando SSD, mas não é algo prático. No fim, serão necessários novos algoritmos e projetos de chips sob medida. Com a arquitetura Transformer atual, os limites são claros
Se você não acompanha o anemll, vale saber que ele também publicou uma versão capaz de rodar o OpenClaw no iPhone.
À medida que hardware e modelos evoluem, o futuro da IA mobile parece bem promissor

Executando um LLM de 400B no iPhone 17 Pro

Leituras relacionadas

1 comentários

Opiniões do Hacker News