AgentBlue - agente de IA open source para automatizar o Android com comandos em linguagem natural
(github.com/RGLie)Olá, eu criei um sistema de agente móvel chamado AgentBlue.
O AgentBlue é um sistema open source de automação com IA em que você digita comandos em linguagem natural no terminal e o dispositivo Android explora apps, toca na tela e digita sozinho.
Como funciona
Ele lê a árvore de UI da tela atual usando o Accessibility Service do Android, envia isso para um LLM e decide a próxima ação. Esse loop ReAct (Reasoning + Acting) é repetido até que a condição de conclusão seja atendida.
"Pesquise música lo-fi no YouTube"
→ parsing da UI → decisão do LLM → CLICK "YouTube" → TYPE "lo-fi" → CLICK pesquisar → DONE
O CLI e o app Android se comunicam em tempo real usando o Firebase Firestore como servidor de relay. O pareamento é feito com um código de sessão de 8 dígitos, sem necessidade de servidor separado.
Principais recursos
- Suporte a múltiplos LLMs — escolha entre OpenAI, Google Gemini, Anthropic Claude e DeepSeek
- REPL no terminal — inicie uma sessão com
agentblue starte envie comandos em linguagem natural - Configuração remota — altere as configurações do app Android pelo CLI com
/settinge/model - Verificação de status em tempo real — acompanhe no terminal o progresso de cada etapa em tempo real
- Proteções de segurança — interrompe automaticamente antes de ações irreversíveis, como confirmar pagamento ou excluir conta
- Detecção e recuperação de travamento — quando falhas se repetem na mesma tela, injeta dicas ou força a execução de BACK
- Uso direto no dispositivo — é possível inserir comandos diretamente no aparelho com um botão flutuante, sem CLI
Início rápido
Como usar
npm install -g @agentblue/cli
agentblue init # configuração do Firebase + seleção de idioma (servidor compartilhado fornecido por padrão)
agentblue start # gera o código da sessão → inserir no app Android → conexão concluída
Basta conceder ao app Android a permissão do Accessibility Service e de sobreposição para começar a usar.
Por que eu criei isso
A maioria das ferramentas de RPA é baseada em coordenadas de tela, então uma única atualização do app pode quebrar o script. O AgentBlue encontra os alvos com base no significado da UI (texto, contentDescription, resource ID), então é muito mais resistente a mudanças de layout. Como o LLM decide novamente “o que fazer em seguida” a cada etapa, não é preciso montar um cenário antecipadamente.
Feedback e contribuições são bem-vindos. Principalmente se você tiver estratégias melhores de parsing de UI ou ideias para melhorar a detecção de travamento, avise por issue, PR ou comentário!
Obrigado
Ainda não há comentários.