Google LiteRT-LM - framework de inferência de LLM de alto desempenho para dispositivos de borda

(github.com/google-ai-edge)

14 pontos por xguru 8 일 전 | 2 comentários | Compartilhar no WhatsApp

Um motor de inferência de LLM on-device em nível de produção criado pelo Google, capaz de executar grandes modelos de linguagem em diversos ambientes de borda, como Android, iOS, web, desktop e IoT (Raspberry Pi)
Suporte adicionado aos modelos Gemma 4 mais recentes, oferecendo desempenho de inferência otimizado mesmo em dispositivos de borda por meio de aceleração de hardware com GPU·NPU
Com suporte multimodal, pode processar entradas de visão (imagem) e áudio, e também oferece inferência com anexos de imagem no CLI por meio da opção --attachment
Function Calling (Tool Use) integrado para fluxos de trabalho agênticos
Compatível com diversos modelos de LLM, como Gemma, Llama, Phi-4 e Qwen, permitindo baixar um modelo do Hugging Face e executar inferência imediatamente com um comando CLI de uma linha
- Comece na hora com uv tool install litert-lm → litert-lm run
Já está efetivamente embarcado em produtos do Google como Chrome, Chromebook Plus e Pixel Watch, executando GenAI on-device
Permite executar modelos instantaneamente no mobile por meio do app Google AI Edge Gallery (disponível no Google Play e na App Store)
APIs por linguagem: suporte estável para Kotlin (Android/JVM), Python (prototipagem) e C++ (nativo de alto desempenho), com Swift (iOS/macOS) em desenvolvimento
Status de lançamento: v0.10.2 é a mais recente; a v0.10.1 introduziu Gemma 4 e CLI; a v0.8.0 trouxe GPU para desktop e multimodal; a v0.7.0 adicionou aceleração por NPU
Licença Apache-2.0

2 comentários

picopress 8 일 전

Mesmo querendo rodar, não tenho memória suficiente, aff.

hmmhmmhm 8 일 전

Será que agora funciona bem? Antes, no lado do Mac, o desempenho estava estranhamente ruim...

Google LiteRT-LM - framework de inferência de LLM de alto desempenho para dispositivos de borda

Leituras relacionadas

2 comentários