ANEMLL - projeto open source para executar LLMs no Apple Neural Engine

(github.com/Anemll)

3 pontos por GN⁺ 2025-05-05 | 1 comentários | Compartilhar no WhatsApp

Fornece um pipeline de inferência de LLM executável no Apple Neural Engine (ANE)
Com base em modelos do Hugging Face, permite inferência on-device em apps baseados em Swift/C++ ou apps para iOS/macOS
A versão mais recente, 0.3.0 Alpha, inclui ferramentas para converter modelos do Hugging Face para o formato CoreML, uma implementação de CLI de inferência baseada em Swift, exemplos de apps para iOS/macOS, código de teste em Python e ferramentas de benchmark
Suporta os modelos LLaMA 3.2 (1B / 8B) e Distilled DeepSeek R1 8B/DeepHermes 3B e 8B, com planos de expansão futura para uma variedade maior de arquiteturas de modelos
O objetivo é oferecer um framework flexível e fácil de usar para converter modelos do Hugging Face para ANE

1 comentários

GN⁺ 2025-05-05

Comentários do Hacker News

Fico curioso se houve algum desdobramento em relação à afirmação da Apple de que os modelos otimizados para ANE seriam "até 10x mais rápidos e com 14x menos consumo de memória"
- MLX e llama.cpp não oferecem suporte ao ANE
- o llama.cpp está explorando essa ideia
- o MLX, apesar de ter sido criado pela Apple, também não oferece suporte ao ANE
Quando os notebooks com Snapdragon X foram lançados, dizia-se que a NPU seria usada para LLMs
- acreditei nas afirmações da Qualcomm, mas na prática os modelos só rodavam na CPU
- a NPU só é eficiente em termos de energia para modelos pequenos, não sendo adequada para modelos grandes
- o suporte a Vulkan é a única esperança
Tive a sensação de que o Neural Engine é silício desperdiçado
- seria possível adicionar mais núcleos de GPU e, quando necessário, redirecionar a API de processamento neural para a GPU
- gostaria de aprender se houver uma visão diferente
A principal vantagem é que o consumo de energia é muito menor
- em benchmarks no M1 Max e no M4 Pro, a GPU é mais rápida, mas consome muito mais energia
- os modelos para ANE estão limitados a 512 tokens, então ainda é difícil usá-los em produção
O README não traz a informação mais importante
- quero saber quantos tokens/segundo ele consegue em comparação com llama.cpp / MLX na mesma quantização
- só valeria a pena trocar de plataforma padrão se houvesse uma melhora significativa
Estou tentando descobrir qual é o segredo dessa tecnologia
- quero saber se o essencial é depender de coremltools ou se existe alguma outra técnica importante
A memória unificada da Apple oferece RAM suficiente para executar modelos grandes que normalmente exigiriam várias GPUs
Fico curioso se o coreml utiliza o ANE
- quero saber se há gargalos no coreml que exigem acesso de baixo nível
Quero saber se há vantagem de desempenho na velocidade de inferência em MacBooks com chips da série M
- quero saber se o principal objetivo é fazer a inferência funcionar em outras plataformas, como iOS
- se houver ganho de desempenho, gostaria de ver uma comparação de tokens/segundo com o Ollama
O controle rígido da Apple sobre o ANE é surpreendente
- espero que chegue o dia em que as pessoas possam realmente usá-lo
- fico curioso se as empresas escondem a tecnologia para manter o controle ou se de fato há um grande motivo técnico

ANEMLL - projeto open source para executar LLMs no Apple Neural Engine

Leituras relacionadas

1 comentários

Comentários do Hacker News