- Mecanismo de inferência baseado em Rust para executar modelos de IA rapidamente no ambiente Apple Silicon
- Arquitetura híbrida que utiliza opcionalmente kernels de GPU ou o MPSGraph por baixo do CoreML
- Usa modelos em formato próprio, e é possível converter e usar vários modelos, como o Llama3, por meio da ferramenta lalamo
- Supera o llama.cpp em velocidade na maioria dos casos, registrando processamento 13 vezes mais rápido especialmente no Qwen3-0.6B
- Desenvolvimento e integração flexíveis por meio de bindings para Swift, interface CLI e API em Rust
- Garante confiabilidade e escalabilidade com composição modular, uso da memória unificada dos dispositivos Apple para maximizar o desempenho e fornecimento de caminhos de inferência com validação de desempenho
Ainda não há comentários.