6 pontos por GN⁺ 2026-03-24 | 1 comentários | Compartilhar no WhatsApp
  • Um LLM de 400 bilhões de parâmetros foi executado no iPhone 17 Pro, com velocidade de cerca de 0,6 token por segundo
  • O modelo usa arquitetura Mixture of Experts (MoE), e os pesos realmente ativados são de aproximadamente 5 bilhões de parâmetros
  • Foi reconstituído em uma versão com quantização de 4 bits, mas continua muito lento
  • Utiliza GPU·CPU RAM de forma combinada e carregamento por streaming via SSD
  • Foi feito um fork do Flash-Moe e ele foi publicado em Anemll/flash-moe (branch iOS-App)

1 comentários

 
GN⁺ 2026-03-24
Opiniões do Hacker News
  • Fiquei curioso se essa abordagem de streaming direto do SSD para a GPU é baseada no artigo da Apple de 2023, LLM in a Flash

    • Sim. Resumi os detalhes relacionados neste post do meu blog
    • Uma abordagem parecida também foi apresentada recentemente nesta thread do HN. Só que o iPhone Pro é limitado a 12GB de RAM, então isso não basta para armazenar a parte ativa do modelo. Também seria possível usar um armazenamento durável como o Intel Optane, mas o consumo de energia é alto demais para mobile
    • Esse método não é muito diferente da arquitetura do Cerebus, que faz streaming dos weights
  • Sonhei que todo mundo carregava uma IA superinteligente no bolso, mas no fim só usavam para doomscrolling e catfishing, até o mundo acabar

    • Parece um Nostradamus moderno
  • Meu iPad Air (M2) roda LLMs locais muito bem, mas em poucos segundos ele superaquece e entra em throttling quase imediatamente

    • Fiquei me perguntando se alguém já fez um sistema de refrigeração líquida para iPad ou celular. Algo como um dispositivo selado preso na traseira do aparelho, circulando líquido de refrigeração
  • O Qwen3.5-397B-A17B na prática se comporta como um modelo de 17B. O título que omite a parte MoE é só propaganda exagerada.
    Quantização também é meio que um código de trapaça, então um dia alguém pode acabar chamando um modelo com quantização de 1 bit de “modelo grande”

    • Na prática ele se comporta mais como um modelo de cerca de 80B, e em conhecimento de mundo fica mais próximo de um modelo de 400B. A arquitetura do modelo, a quantização e até o tempo até o primeiro token estão todos divulgados, então não há muito espaço para mal-entendidos. Esse tipo de tentativa é menos para usuários comuns e mais um experimento técnico, quase como code golf
  • Existe a dúvida: “É um modelo de 400B, mas se usa arquitetura MoE, quantos parâmetros realmente ficam ativos?”

    • No Qwen3.5-397B-A17B, 17B parâmetros ficam ativos. O código relacionado pode ser visto no repositório do app flash-moe para iOS
    • Hoje em dia a maioria das empresas está adotando arquitetura MoE
  • Essa notícia me lembra de quando o llama.c surgiu pela primeira vez e todo mundo ficou empolgado porque rodar localmente finalmente tinha se tornado possível

  • Instalei o Termux em um celular Android antigo (LineageOS) e rodei o Ollama com um modelo pequeno dentro dele. O desempenho era horrível, mas funcionava

    • Lembro de ter compilado e rodado um minerador de Bitcoin com Linux Deploy num Galaxy Note antigo. O desempenho era péssimo, mas dava a sensação de carregar um computador completo no bolso. Na época da Nokia, não dava para executar nada além de JS no navegador; o Android era realmente uma plataforma hackeável
    • Só como referência, meu Pixel 8 roda o modelo Qwen3.5 4B a 2 tokens por segundo. No app PocketPal funciona bem, mas o app Cactus não funcionou
  • Os modelos MoE da Qwen têm uma queda brusca de desempenho quando a parte ativa cai para algo como 2B. Na inferência real, usam-se apenas dezenas de vezes menos parâmetros, então chamar isso de modelo 400B não faz muito sentido

  • Há a pergunta: “Quanto tempo vai levar para um modelo com esse nível de desempenho rodar a 100 tokens por segundo?”

    • O único jeito é embutir o modelo diretamente no hardware. De fato, este post de blog apresenta um chip assim, mas ele é grande demais para caber em um smartphone
    • Em smartphones, não vale a pena rodar modelos grandes desse tipo. É mais rápido e mais preciso fazer fine-tuning de modelos pequenos para usos específicos
    • O modelo Apollo (LFM2) da Liquid AI roda bem rápido até em celulares e é útil para tarefas como resumir resultados de busca ou resolver problemas de matemática
    • Realisticamente, acho impossível. Não existe solução de engenharia para isso
    • Provavelmente vai levar de 15 a 20 anos. Dizer que esse modelo “roda” em um celular é tecnicamente verdade, mas só nesse sentido. Na prática, a capacidade de RAM e a largura de banda da memória são absurdamente insuficientes. Dá para fazer uma demo usando SSD, mas não é algo prático. No fim, serão necessários novos algoritmos e projetos de chips sob medida. Com a arquitetura Transformer atual, os limites são claros
  • Se você não acompanha o anemll, vale saber que ele também publicou uma versão capaz de rodar o OpenClaw no iPhone.
    À medida que hardware e modelos evoluem, o futuro da IA mobile parece bem promissor