- Fornece um pipeline de inferência de LLM executável no Apple Neural Engine (ANE)
- Com base em modelos do Hugging Face, permite inferência on-device em apps baseados em Swift/C++ ou apps para iOS/macOS
- A versão mais recente, 0.3.0 Alpha, inclui ferramentas para converter modelos do Hugging Face para o formato CoreML, uma implementação de CLI de inferência baseada em Swift, exemplos de apps para iOS/macOS, código de teste em Python e ferramentas de benchmark
- Suporta os modelos LLaMA 3.2 (1B / 8B) e Distilled DeepSeek R1 8B/DeepHermes 3B e 8B, com planos de expansão futura para uma variedade maior de arquiteturas de modelos
- O objetivo é oferecer um framework flexível e fácil de usar para converter modelos do Hugging Face para ANE
1 comentários
Comentários do Hacker News
Fico curioso se houve algum desdobramento em relação à afirmação da Apple de que os modelos otimizados para ANE seriam "até 10x mais rápidos e com 14x menos consumo de memória"
Quando os notebooks com Snapdragon X foram lançados, dizia-se que a NPU seria usada para LLMs
Tive a sensação de que o Neural Engine é silício desperdiçado
A principal vantagem é que o consumo de energia é muito menor
O README não traz a informação mais importante
Estou tentando descobrir qual é o segredo dessa tecnologia
coremltoolsou se existe alguma outra técnica importanteA memória unificada da Apple oferece RAM suficiente para executar modelos grandes que normalmente exigiriam várias GPUs
Fico curioso se o coreml utiliza o ANE
Quero saber se há vantagem de desempenho na velocidade de inferência em MacBooks com chips da série M
O controle rígido da Apple sobre o ANE é surpreendente