7 pontos por ironman0722 2026-03-31 | 1 comentários | Compartilhar no WhatsApp
  • Harness de VLM com uso de computador para jogar Civilization VI por meio de comandos em linguagem natural
    “expandir para o leste”, “focar na economia”, “vitória científica” etc. como entrada de intenção de alto nível → o agente executa as ações reais

  • Arquitetura em 3 camadas que separa estratégia e execução (Strategy / Action / HITL)

    • Strategy Layer: linguagem natural → conversão em objetivos estruturados, manutenção de estratégia de longo prazo e decomposição de tarefas
    • Action Layer: reconhecimento de estado baseado em tela (VLM) + execução com mouse/teclado (sem API do jogo)
    • HITL Layer: estrutura de autonomia controlável que permite intervenção/correção/interrupção durante a execução
  • Uma estratégia é decomposta em várias sequências de ações, com 2 a 16 chamadas de modelo por tarefa

  • Execução por unidade de tarefa delimitada, como gerenciamento de cidades e movimentação de unidades, com base em subagentes

  • Experimento de “troca da interface de intenção → ação”, em vez de abordagens tradicionais de RL/IL/script

  • Modelo de delegação estratégica e orquestração de agentes, e não de manipulação direta

  • Principais questões técnicas:

    • erros de percepção do VLM,
    • execution drift,
    • dificuldade de verificar se houve sucesso
    • aumento de latência e custo de API em execuções de múltiplas etapas, além de piora na qualidade das estratégias de fallback
  • Em vez de automação completa, permite modificação e controle estratégico em tempo real com base em human-in-the-loop

  • Sistema experimental que lida com problemas de controle / verificação de agentes em ambientes apenas com UI

  • O foco é menos o gameplay em si e mais “elevar a interface humano-sistema ao nível estratégico”

1 comentários

 
bus710 2026-04-01

Quando você está se esforçando rumo à vitória por dominação/cultura/ciência/diplomacia, sempre acaba levando uma rasteira com uma vitória religiosa vinda de algum lugar