civStation – agente baseado em VLM com uso de computador para controlar Civilization VI no nível estratégico (até com human-in-the-loop)

ironman0722 · 2026-03-31T14:03:37+09:00

Harness de VLM com uso de computador para jogar Civilization VI por meio de comandos em linguagem natural “expandir para o leste”, “focar na economia”, “vitória científica” etc. como entrada de intenção de alto nível → o agente executa as ações reais Arquitetura em 3 camadas que separa estratégia e execução (Strategy / Action / HITL) Strategy Layer: linguagem natural → conversão em objetivos estruturados, manutenção de estratégia de longo prazo e decomposição de tarefas Action Layer: reconhecimento de estado baseado em tela (VLM) + execução com mouse/teclado (sem API do jogo) HITL Layer: estrutura de autonomia controlável que permite intervenção/correção/interrupção durante a execução Uma estratégia é decomposta em várias sequências de ações, com 2 a 16 chamadas de modelo por tarefa Execução por unidade de tarefa delimitada, como gerenciamento de cidades e movimentação de unidades, com base em subagentes Experimento de “troca da interface de intenção → ação”, em vez de abordagens tradicionais de RL/IL/script Modelo de delegação estratégica e orquestração de agentes, e não de manipulação direta Principais questões técnicas: erros de percepção do VLM, execution drift, dificuldade de verificar se houve sucesso aumento de latência e custo de API em execuções de múltiplas etapas, além de piora na qualidade das estratégias de fallback Em vez de automação completa, permite modificação e controle estratégico em tempo real com base em human-in-the-loop Sistema experimental que lida com problemas de controle / verificação de agentes em ambientes apenas com UI O foco é menos o gameplay em si e mais “elevar a interface humano-sistema ao nível estratégico”

(github.com/NomaDamas)

7 pontos por ironman0722 2026-03-31 | 1 comentários | Compartilhar no WhatsApp

Harness de VLM com uso de computador para jogar Civilization VI por meio de comandos em linguagem natural
“expandir para o leste”, “focar na economia”, “vitória científica” etc. como entrada de intenção de alto nível → o agente executa as ações reais
Arquitetura em 3 camadas que separa estratégia e execução (Strategy / Action / HITL)
- Strategy Layer: linguagem natural → conversão em objetivos estruturados, manutenção de estratégia de longo prazo e decomposição de tarefas
- Action Layer: reconhecimento de estado baseado em tela (VLM) + execução com mouse/teclado (sem API do jogo)
- HITL Layer: estrutura de autonomia controlável que permite intervenção/correção/interrupção durante a execução
Uma estratégia é decomposta em várias sequências de ações, com 2 a 16 chamadas de modelo por tarefa
Execução por unidade de tarefa delimitada, como gerenciamento de cidades e movimentação de unidades, com base em subagentes
Experimento de “troca da interface de intenção → ação”, em vez de abordagens tradicionais de RL/IL/script
Modelo de delegação estratégica e orquestração de agentes, e não de manipulação direta
Principais questões técnicas:
- erros de percepção do VLM,
- execution drift,
- dificuldade de verificar se houve sucesso
- aumento de latência e custo de API em execuções de múltiplas etapas, além de piora na qualidade das estratégias de fallback
Em vez de automação completa, permite modificação e controle estratégico em tempo real com base em human-in-the-loop
Sistema experimental que lida com problemas de controle / verificação de agentes em ambientes apenas com UI
O foco é menos o gameplay em si e mais “elevar a interface humano-sistema ao nível estratégico”

1 comentários

bus710 2026-04-01

Quando você está se esforçando rumo à vitória por dominação/cultura/ciência/diplomacia, sempre acaba levando uma rasteira com uma vitória religiosa vinda de algum lugar

civStation – agente baseado em VLM com uso de computador para controlar Civilization VI no nível estratégico (até com human-in-the-loop)

Leituras relacionadas

1 comentários