- Framework multiplataforma que permite executar modelos GGUF diretamente em vários dispositivos, como smartphones, notebooks, TVs e câmeras
- Compatível com qualquer modelo GGUF disponível no Huggingface; Qwen, Gemma, Llama, DeepSeek etc.
- Implantação e execução direta de modelos LLM/VLM/TTS dentro do app
- Suporta Flutter, React-Native e Kotlin Multiplatform, permitindo executar no dispositivo vários tipos de modelos, como texto, visão, embeddings e TTS
- Suporta de FP32 até modelos quantizados em 2 bits, possibilitando alta eficiência e operação com baixo consumo de energia em ambientes móveis
- Suporte a templates de chat (Jinja2), streaming de tokens, fallback automático entre nuvem e local, Speech-To-Text etc.
- O backend do Cactus é escrito em C/C++, então roda diretamente em praticamente qualquer ambiente, incluindo mobile, PC, embarcados e IoT
- Em smartphones recentes, o Gemma3 1B Q4 roda a 20~50 tokens/segundo, e o Qwen3 4B Q4 a 7~18 tokens/segundo
- É possível baixar modelos recomendados em HuggingFace Cactus-Compute
Pontos de uso e vantagens
- Diferente dos frameworks LLM on-device existentes, oferece suporte integrado a várias plataformas, facilitando a implementação de uma arquitetura híbrida local-nuvem
- Permite usar LLM/VLM/TTS modernos em dispositivos móveis com alto desempenho e baixo consumo de energia
- Adequado para diversos cenários B2C/B2B, como processamento de dados privados dentro do app/serviço, uso de IA offline e redução de custos
Ainda não há comentários.