3 pontos por GN⁺ 2025-05-05 | 1 comentários | Compartilhar no WhatsApp
  • Fornece um pipeline de inferência de LLM executável no Apple Neural Engine (ANE)
  • Com base em modelos do Hugging Face, permite inferência on-device em apps baseados em Swift/C++ ou apps para iOS/macOS
  • A versão mais recente, 0.3.0 Alpha, inclui ferramentas para converter modelos do Hugging Face para o formato CoreML, uma implementação de CLI de inferência baseada em Swift, exemplos de apps para iOS/macOS, código de teste em Python e ferramentas de benchmark
  • Suporta os modelos LLaMA 3.2 (1B / 8B) e Distilled DeepSeek R1 8B/DeepHermes 3B e 8B, com planos de expansão futura para uma variedade maior de arquiteturas de modelos
  • O objetivo é oferecer um framework flexível e fácil de usar para converter modelos do Hugging Face para ANE

1 comentários

 
GN⁺ 2025-05-05
Comentários do Hacker News
  • Fico curioso se houve algum desdobramento em relação à afirmação da Apple de que os modelos otimizados para ANE seriam "até 10x mais rápidos e com 14x menos consumo de memória"

    • MLX e llama.cpp não oferecem suporte ao ANE
    • o llama.cpp está explorando essa ideia
    • o MLX, apesar de ter sido criado pela Apple, também não oferece suporte ao ANE
  • Quando os notebooks com Snapdragon X foram lançados, dizia-se que a NPU seria usada para LLMs

    • acreditei nas afirmações da Qualcomm, mas na prática os modelos só rodavam na CPU
    • a NPU só é eficiente em termos de energia para modelos pequenos, não sendo adequada para modelos grandes
    • o suporte a Vulkan é a única esperança
  • Tive a sensação de que o Neural Engine é silício desperdiçado

    • seria possível adicionar mais núcleos de GPU e, quando necessário, redirecionar a API de processamento neural para a GPU
    • gostaria de aprender se houver uma visão diferente
  • A principal vantagem é que o consumo de energia é muito menor

    • em benchmarks no M1 Max e no M4 Pro, a GPU é mais rápida, mas consome muito mais energia
    • os modelos para ANE estão limitados a 512 tokens, então ainda é difícil usá-los em produção
  • O README não traz a informação mais importante

    • quero saber quantos tokens/segundo ele consegue em comparação com llama.cpp / MLX na mesma quantização
    • só valeria a pena trocar de plataforma padrão se houvesse uma melhora significativa
  • Estou tentando descobrir qual é o segredo dessa tecnologia

    • quero saber se o essencial é depender de coremltools ou se existe alguma outra técnica importante
  • A memória unificada da Apple oferece RAM suficiente para executar modelos grandes que normalmente exigiriam várias GPUs

  • Fico curioso se o coreml utiliza o ANE

    • quero saber se há gargalos no coreml que exigem acesso de baixo nível
  • Quero saber se há vantagem de desempenho na velocidade de inferência em MacBooks com chips da série M

    • quero saber se o principal objetivo é fazer a inferência funcionar em outras plataformas, como iOS
    • se houver ganho de desempenho, gostaria de ver uma comparação de tokens/segundo com o Ollama
  • O controle rígido da Apple sobre o ANE é surpreendente

    • espero que chegue o dia em que as pessoas possam realmente usá-lo
    • fico curioso se as empresas escondem a tecnologia para manter o controle ou se de fato há um grande motivo técnico