Executando um LLM de 400B no iPhone 17 Pro
(twitter.com/anemll)- Um LLM de 400 bilhões de parâmetros foi executado no iPhone 17 Pro, com velocidade de cerca de 0,6 token por segundo
- O modelo usa arquitetura Mixture of Experts (MoE), e os pesos realmente ativados são de aproximadamente 5 bilhões de parâmetros
- Foi reconstituído em uma versão com quantização de 4 bits, mas continua muito lento
- Utiliza GPU·CPU RAM de forma combinada e carregamento por streaming via SSD
- Foi feito um fork do Flash-Moe e ele foi publicado em Anemll/flash-moe (branch iOS-App)
1 comentários
Opiniões do Hacker News
Fiquei curioso se essa abordagem de streaming direto do SSD para a GPU é baseada no artigo da Apple de 2023, LLM in a Flash
Sonhei que todo mundo carregava uma IA superinteligente no bolso, mas no fim só usavam para doomscrolling e catfishing, até o mundo acabar
Meu iPad Air (M2) roda LLMs locais muito bem, mas em poucos segundos ele superaquece e entra em throttling quase imediatamente
O Qwen3.5-397B-A17B na prática se comporta como um modelo de 17B. O título que omite a parte MoE é só propaganda exagerada.
Quantização também é meio que um código de trapaça, então um dia alguém pode acabar chamando um modelo com quantização de 1 bit de “modelo grande”
Existe a dúvida: “É um modelo de 400B, mas se usa arquitetura MoE, quantos parâmetros realmente ficam ativos?”
Essa notícia me lembra de quando o llama.c surgiu pela primeira vez e todo mundo ficou empolgado porque rodar localmente finalmente tinha se tornado possível
Instalei o Termux em um celular Android antigo (LineageOS) e rodei o Ollama com um modelo pequeno dentro dele. O desempenho era horrível, mas funcionava
Os modelos MoE da Qwen têm uma queda brusca de desempenho quando a parte ativa cai para algo como 2B. Na inferência real, usam-se apenas dezenas de vezes menos parâmetros, então chamar isso de modelo 400B não faz muito sentido
Há a pergunta: “Quanto tempo vai levar para um modelo com esse nível de desempenho rodar a 100 tokens por segundo?”
Se você não acompanha o anemll, vale saber que ele também publicou uma versão capaz de rodar o OpenClaw no iPhone.
À medida que hardware e modelos evoluem, o futuro da IA mobile parece bem promissor