Cactus - Ollama para smartphones

(github.com/cactus-compute)

22 pontos por xguru 2025-08-05 | Ainda não há comentários. | Compartilhar no WhatsApp

Framework multiplataforma que permite executar modelos GGUF diretamente em vários dispositivos, como smartphones, notebooks, TVs e câmeras
- Compatível com qualquer modelo GGUF disponível no Huggingface; Qwen, Gemma, Llama, DeepSeek etc.
- Implantação e execução direta de modelos LLM/VLM/TTS dentro do app
Suporta Flutter, React-Native e Kotlin Multiplatform, permitindo executar no dispositivo vários tipos de modelos, como texto, visão, embeddings e TTS
Suporta de FP32 até modelos quantizados em 2 bits, possibilitando alta eficiência e operação com baixo consumo de energia em ambientes móveis
Suporte a templates de chat (Jinja2), streaming de tokens, fallback automático entre nuvem e local, Speech-To-Text etc.
O backend do Cactus é escrito em C/C++, então roda diretamente em praticamente qualquer ambiente, incluindo mobile, PC, embarcados e IoT
Em smartphones recentes, o Gemma3 1B Q4 roda a 20~50 tokens/segundo, e o Qwen3 4B Q4 a 7~18 tokens/segundo
É possível baixar modelos recomendados em HuggingFace Cactus-Compute

Pontos de uso e vantagens

Diferente dos frameworks LLM on-device existentes, oferece suporte integrado a várias plataformas, facilitando a implementação de uma arquitetura híbrida local-nuvem
Permite usar LLM/VLM/TTS modernos em dispositivos móveis com alto desempenho e baixo consumo de energia
Adequado para diversos cenários B2C/B2B, como processamento de dados privados dentro do app/serviço, uso de IA offline e redução de custos