Google LiteRT-LM - framework de inferência de LLM de alto desempenho para dispositivos de borda
(github.com/google-ai-edge)- Um motor de inferência de LLM on-device em nível de produção criado pelo Google, capaz de executar grandes modelos de linguagem em diversos ambientes de borda, como Android, iOS, web, desktop e IoT (Raspberry Pi)
- Suporte adicionado aos modelos Gemma 4 mais recentes, oferecendo desempenho de inferência otimizado mesmo em dispositivos de borda por meio de aceleração de hardware com GPU·NPU
- Com suporte multimodal, pode processar entradas de visão (imagem) e áudio, e também oferece inferência com anexos de imagem no CLI por meio da opção
--attachment - Function Calling (Tool Use) integrado para fluxos de trabalho agênticos
- Compatível com diversos modelos de LLM, como Gemma, Llama, Phi-4 e Qwen, permitindo baixar um modelo do Hugging Face e executar inferência imediatamente com um comando CLI de uma linha
- Comece na hora com
uv tool install litert-lm→litert-lm run
- Comece na hora com
- Já está efetivamente embarcado em produtos do Google como Chrome, Chromebook Plus e Pixel Watch, executando GenAI on-device
- Permite executar modelos instantaneamente no mobile por meio do app Google AI Edge Gallery (disponível no Google Play e na App Store)
- APIs por linguagem: suporte estável para Kotlin (Android/JVM), Python (prototipagem) e C++ (nativo de alto desempenho), com Swift (iOS/macOS) em desenvolvimento
- Status de lançamento: v0.10.2 é a mais recente; a v0.10.1 introduziu Gemma 4 e CLI; a v0.8.0 trouxe GPU para desktop e multimodal; a v0.7.0 adicionou aceleração por NPU
- Licença Apache-2.0
2 comentários
Mesmo querendo rodar, não tenho memória suficiente, aff.
Será que agora funciona bem? Antes, no lado do Mac, o desempenho estava estranhamente ruim...