1 pontos por GN⁺ 2025-03-12 | 1 comentários | Compartilhar no WhatsApp
  • O Factorio Learning Environment (FLE), baseado no jogo Factorio, é um ambiente para testar planejamento de longo prazo, geração de programas e otimização de recursos
  • O FLE oferece desafios escaláveis, da automação básica a fábricas complexas, e inclui duas configurações: 'Lab-play', que executa 24 tarefas estruturadas com recursos fixos, e 'Open-play', que oferece missões infinitas.
  • Importância do FLE
    • O FLE fornece infraestrutura, API e métricas para avaliar geração de código, raciocínio espacial e planejamento de longo prazo.
    • Os agentes precisam extrair recursos e gerenciar cadeias de produção complexas, definindo e alcançando objetivos cada vez mais complexos.
  • Ambiente e agentes
    • Os agentes interagem com o ambiente por meio de uma API em Python, enviam programas e recebem feedback para aprimorar suas estratégias.
    • Os programas dos agentes geram pontuação de produção (PS) e marcos que representam avanço tecnológico.
  • Configuração experimental
    • Duas configurações experimentais: 'Open-play' e 'Lab-play'.
    • Seis modelos de linguagem de ponta foram avaliados: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash e Llama-3.3-70B-Instruct.
  • Open-Play
    • Os agentes têm o objetivo de "construir a maior fábrica" em um mundo gerado proceduralmente.
    • A capacidade dos agentes é avaliada pela pontuação de produção, e os modelos superiores mostram pontuações mais altas e curvas de crescimento mais acentuadas.
  • Lab-Play
    • Os agentes recebem recursos e precisam cumprir objetivos dentro de um tempo limitado.
    • Eles executam tarefas de produzir 24 entidades-alvo, e cada entidade se torna progressivamente mais complexa.
  • Principais insights
    • A capacidade de programação prevê o desempenho, enquanto investimento tecnológico e planejamento impulsionam o crescimento.
    • Raciocínio espacial e recuperação de erros são desafios centrais.
    • Os modelos exibem estilos de programação diferentes entre si.
  • Conclusão
    • Mesmo os LLMs mais recentes ainda têm dificuldade com problemas de coordenação e otimização em tarefas de automação.
    • A complexidade da árvore tecnológica do Factorio continua oferecendo um cenário de avaliação desafiador, mesmo com o avanço contínuo da pesquisa em IA.
    • O FLE é disponibilizado como uma plataforma open source para estudar as capacidades de agentes em domínios complexos e infinitos.

1 comentários

 
GN⁺ 2025-03-12
Comentários no Hacker News
  • Quero me candidatar ao laboratório de pesquisa de Factorio da Anthropic. Fico curioso se há transmissão de dados multimodais. O Qwen 2.5 VLM lançado recentemente parece poderoso para o seu tamanho

    • Há muitas menções à falta de capacidade espacial. Gostaria de saber o que pensam sobre o envio de imagens
    • Esse trabalho é impressionante. Quero participar deste projeto agora mesmo
    • O MCP parece um trabalho obrigatório natural para viabilizar bibliotecas Python
  • Houve um post no HN sobre uma equipe que venceu Pokémon Red usando aprendizado por reforço. Fico curioso se essa abordagem poderia ser usada em Factorio

    • O principal "trabalho obrigatório" em Factorio é configurar a automação de novos itens e pacotes de ciência
    • A função de recompensa poderia incluir uma pequena recompensa pela taxa de produção de cada item, uma recompensa média pela automação de novos itens e uma grande recompensa pela automação de novos pacotes de ciência
    • Dizer a um agente de Factorio "construa uma grande fábrica" é como dizer a um agente de Pokémon Red "vença o jogo"
  • Todos os modelos mostraram limitações no planejamento espacial ao construir fábricas com várias seções

    • A razão de os LLMs serem fracos em raciocínio espacial provavelmente é que não há muitos dados de treinamento
    • Fico curioso sobre quais capacidades adicionais de raciocínio surgiriam se o raciocínio espacial fosse resolvido
  • É possível usar LLMs como agentes de alto nível para construir autonomamente fábricas grandes e eficientes

    • Definição de metas para produção de recursos
    • Geração do grafo da fábrica e cálculo do transporte de recursos
    • Mapeamento do grafo para uma linguagem de descrição de hardware
    • Compilação para um layout 2D de FPGA
    • Mapeamento do plano para um design concreto de Factorio
  • Há muitos elementos interessantes para experimentar. Um cenário de laboratório com componente temporal parece uma boa ideia

    • Gosto do design de framework, diferente dos experimentos com DOTA 2 ou StarCraft 2
    • Fico curioso se há planos para um benchmark de otimização de layout
  • Fico curioso se existe um benchmark de jogadores humanos para esse estilo de interface

    • Fico imaginando como seria um Factorio programático
  • Fico curioso se, daqui a alguns anos, todos os oponentes nos jogos serão LLMs com acesso à API de controle do jogo

    • Fico curioso se há tipos específicos de tarefa com os quais os modelos têm dificuldade
  • Como outra categoria de tarefas de "Lab Play", o design de balanceadores parece interessante

    • Mesmo balanceadores pequenos podem ser complexos
  • Eu gostaria de ter visto mais imagens de fábricas maiores

    • Isso mostra claramente uma grande fraqueza atual dos LLMs
    • Espero melhorias maiores em aprendizado/adaptação online
  • É interessante que haja apenas alguns cenários complexos

    • Sempre pensei que agentes de jogo de ML precisariam de centenas de pequenos quebra-cabeças para realmente aprender a mecânica do jogo
    • Os cenários poderiam ser gerados programaticamente e usados como um banco de questões de teste de QI
    • Suponho que agentes de ML aprendam mais rápido ao avaliar amostras de um banco maior de cenários