- O Factorio Learning Environment (FLE), baseado no jogo Factorio, é um ambiente para testar planejamento de longo prazo, geração de programas e otimização de recursos
- O FLE oferece desafios escaláveis, da automação básica a fábricas complexas, e inclui duas configurações: 'Lab-play', que executa 24 tarefas estruturadas com recursos fixos, e 'Open-play', que oferece missões infinitas.
- Importância do FLE
- O FLE fornece infraestrutura, API e métricas para avaliar geração de código, raciocínio espacial e planejamento de longo prazo.
- Os agentes precisam extrair recursos e gerenciar cadeias de produção complexas, definindo e alcançando objetivos cada vez mais complexos.
- Ambiente e agentes
- Os agentes interagem com o ambiente por meio de uma API em Python, enviam programas e recebem feedback para aprimorar suas estratégias.
- Os programas dos agentes geram pontuação de produção (PS) e marcos que representam avanço tecnológico.
- Configuração experimental
- Duas configurações experimentais: 'Open-play' e 'Lab-play'.
- Seis modelos de linguagem de ponta foram avaliados: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash e Llama-3.3-70B-Instruct.
- Open-Play
- Os agentes têm o objetivo de "construir a maior fábrica" em um mundo gerado proceduralmente.
- A capacidade dos agentes é avaliada pela pontuação de produção, e os modelos superiores mostram pontuações mais altas e curvas de crescimento mais acentuadas.
- Lab-Play
- Os agentes recebem recursos e precisam cumprir objetivos dentro de um tempo limitado.
- Eles executam tarefas de produzir 24 entidades-alvo, e cada entidade se torna progressivamente mais complexa.
- Principais insights
- A capacidade de programação prevê o desempenho, enquanto investimento tecnológico e planejamento impulsionam o crescimento.
- Raciocínio espacial e recuperação de erros são desafios centrais.
- Os modelos exibem estilos de programação diferentes entre si.
- Conclusão
- Mesmo os LLMs mais recentes ainda têm dificuldade com problemas de coordenação e otimização em tarefas de automação.
- A complexidade da árvore tecnológica do Factorio continua oferecendo um cenário de avaliação desafiador, mesmo com o avanço contínuo da pesquisa em IA.
- O FLE é disponibilizado como uma plataforma open source para estudar as capacidades de agentes em domínios complexos e infinitos.
1 comentários
Comentários no Hacker News
Quero me candidatar ao laboratório de pesquisa de Factorio da Anthropic. Fico curioso se há transmissão de dados multimodais. O Qwen 2.5 VLM lançado recentemente parece poderoso para o seu tamanho
Houve um post no HN sobre uma equipe que venceu Pokémon Red usando aprendizado por reforço. Fico curioso se essa abordagem poderia ser usada em Factorio
Todos os modelos mostraram limitações no planejamento espacial ao construir fábricas com várias seções
É possível usar LLMs como agentes de alto nível para construir autonomamente fábricas grandes e eficientes
Há muitos elementos interessantes para experimentar. Um cenário de laboratório com componente temporal parece uma boa ideia
Fico curioso se existe um benchmark de jogadores humanos para esse estilo de interface
Fico curioso se, daqui a alguns anos, todos os oponentes nos jogos serão LLMs com acesso à API de controle do jogo
Como outra categoria de tarefas de "Lab Play", o design de balanceadores parece interessante
Eu gostaria de ter visto mais imagens de fábricas maiores
É interessante que haja apenas alguns cenários complexos