14 pontos por j2hyeon02 2026-03-08 | Ainda não há comentários. | Compartilhar no WhatsApp

Olá, eu criei um sistema de agente móvel chamado AgentBlue.

O AgentBlue é um sistema open source de automação com IA em que você digita comandos em linguagem natural no terminal e o dispositivo Android explora apps, toca na tela e digita sozinho.

Como funciona

Ele lê a árvore de UI da tela atual usando o Accessibility Service do Android, envia isso para um LLM e decide a próxima ação. Esse loop ReAct (Reasoning + Acting) é repetido até que a condição de conclusão seja atendida.

"Pesquise música lo-fi no YouTube"
→ parsing da UI → decisão do LLM → CLICK "YouTube" → TYPE "lo-fi" → CLICK pesquisar → DONE
O CLI e o app Android se comunicam em tempo real usando o Firebase Firestore como servidor de relay. O pareamento é feito com um código de sessão de 8 dígitos, sem necessidade de servidor separado.

Principais recursos

  • Suporte a múltiplos LLMs — escolha entre OpenAI, Google Gemini, Anthropic Claude e DeepSeek
  • REPL no terminal — inicie uma sessão com agentblue start e envie comandos em linguagem natural
  • Configuração remota — altere as configurações do app Android pelo CLI com /setting e /model
  • Verificação de status em tempo real — acompanhe no terminal o progresso de cada etapa em tempo real
  • Proteções de segurança — interrompe automaticamente antes de ações irreversíveis, como confirmar pagamento ou excluir conta
  • Detecção e recuperação de travamento — quando falhas se repetem na mesma tela, injeta dicas ou força a execução de BACK
  • Uso direto no dispositivo — é possível inserir comandos diretamente no aparelho com um botão flutuante, sem CLI
    Início rápido

Como usar

npm install -g @agentblue/cli
agentblue init # configuração do Firebase + seleção de idioma (servidor compartilhado fornecido por padrão)
agentblue start # gera o código da sessão → inserir no app Android → conexão concluída
Basta conceder ao app Android a permissão do Accessibility Service e de sobreposição para começar a usar.

Por que eu criei isso

A maioria das ferramentas de RPA é baseada em coordenadas de tela, então uma única atualização do app pode quebrar o script. O AgentBlue encontra os alvos com base no significado da UI (texto, contentDescription, resource ID), então é muito mais resistente a mudanças de layout. Como o LLM decide novamente “o que fazer em seguida” a cada etapa, não é preciso montar um cenário antecipadamente.

Feedback e contribuições são bem-vindos. Principalmente se você tiver estratégias melhores de parsing de UI ou ideias para melhorar a detecção de travamento, avise por issue, PR ou comentário!

Obrigado

Ainda não há comentários.

Ainda não há comentários.