Google LiteRT-LM - framework de inferência de LLM de alto desempenho para dispositivos de borda
(github.com/google-ai-edge)- Motor de inferência de LLM on-device em nível de produção criado pelo Google, capaz de executar grandes modelos de linguagem em ambientes de borda em geral, como Android, iOS, web, desktop e IoT (Raspberry Pi)
- Também adicionou suporte ao modelo mais recente Gemma 4, oferecendo desempenho de inferência otimizado mesmo em dispositivos de borda por meio de aceleração de hardware com GPU e NPU
- Com suporte multimodal, pode processar entradas de visão (imagem) e áudio, e no CLI também oferece inferência com imagem anexada por meio da opção
--attachment - Function Calling (Tool Use) embutido para fluxos de trabalho agentic
- Compatível com diversos modelos de LLM, como Gemma, Llama, Phi-4 e Qwen, permitindo baixar modelos do Hugging Face e executar inferência imediatamente com um comando CLI de uma linha
- Comece na hora com
uv tool install litert-lm→litert-lm run
- Comece na hora com
- Já está realmente embarcado em produtos do Google como Chrome, Chromebook Plus e Pixel Watch, executando GenAI on-device
- Permite executar modelos imediatamente no mobile por meio do app Google AI Edge Gallery (disponível no Google Play e na App Store)
- APIs de linguagem: suporte estável a Kotlin (Android/JVM), Python (prototipagem) e C++ (nativo de alto desempenho), com Swift (iOS/macOS) em desenvolvimento
- Status de release: v0.10.2 é a mais recente; Gemma 4 e CLI foram introduzidos na v0.10.1; GPU para desktop e multimodal na v0.8.0; aceleração por NPU na v0.7.0
- Licença Apache-2.0
2 comentários
Mesmo querendo rodar, não tenho memória suficiente, aff.
Será que agora funciona bem? Antes, no lado do Mac, o desempenho estava estranhamente ruim...