No momento estou desenvolvendo um app com Expo + React Native e quero instalar o modelo Gemma-4-E2B-it diretamente no celular para executá-lo on-device.
Pesquisando, parece que existem opções como as abaixo, mas ainda não consigo ter uma noção clara de qual abordagem é mais usada na prática.
- llama.rn
- llama.cpp
- GGUF
- LiteRT / AI Edge
- MLC LLM
O que eu quero fazer é o seguinte:
- download/instalação do modelo no app
- inferência local (se possível, totalmente offline)
- uso dentro do app Expo/RN
Qual é hoje o runtime/biblioteca mais usado?
Se alguém já implementou isso, eu agradeceria muito se pudesse compartilhar a arquitetura, um repositório de exemplo ou a experiência prática.
2 comentários
Eu já tinha feito um PoC semelhante em Flutter. Na época, trabalhei com LiteRT-lm e consultei bastante este repositório: https://github.com/google-ai-edge/gallery.
Ah, entendi. Eu também já instalei o Google Edge Gallery e testei várias coisas, então vou usar isso como referência. Obrigado!