Experimento sobre memória em agentes de IA: conhecimento resumido pode até piorar o desempenho
(blog.clawsouls.ai)Este é o resultado de um experimento prático sobre como dar memória a agentes de IA.
Foram dadas 4 configurações de memória ao mesmo agente de IA (Claude), e feitas as mesmas 20 perguntas sobre um projeto real de software.
Resultados (de 5 pontos):
• Híbrida (experiência + síntese): 4,95
• Memória experiencial (logs brutos): 4,55
• Baseline (sem memória): 3,30
• Memória sintética (resumo organizado): 2,65
A descoberta mais surpreendente: a memória sintética cuidadosamente organizada ficou abaixo até mesmo de não ter memória nenhuma.
Isso foi chamado de "efeito de excesso de confiança" — conhecimento resumido de forma limpa dá ao agente uma confiança sem fundamento e reduz sua capacidade de admitir que não sabe algo. Em contraste, registros experienciais brutos preservam rastros de incerteza, levando o agente a um raciocínio mais honesto.
Artigo (preprint): https://doi.org/10.5281/zenodo.18802214
Dados do experimento (abertos): https://github.com/clawsouls/experiential-memory-dataset
4 comentários
Era algo que eu já sentia empiricamente até certo ponto, mas a memória sintética está muito mais desastrosa do que eu imaginava.
Exatamente. Eu também imaginei no começo que uma memória sintética seria pelo menos melhor que a baseline, mas fiquei surpreso quando vi os resultados.
Analisando, percebi que o ponto principal era a "preservação da incerteza". Nos logs brutos, ficam rastros como "tentei isso, mas não funcionou" e "não sei qual é a causa", então o agente responde que não sabe quando realmente não sabe; já no resumo, todo esse contexto some, e ele acaba dando respostas erradas com confiança.
Então, se configurarmos a memória sintética para conter o processo dessas tarefas, seus fracassos e sucessos, isso mudaria um pouco?
Boa pergunta. Na verdade, a condição "híbrida" do nosso experimento foi exatamente nessa direção — uma configuração que fornecia um resumo organizado junto com os logs brutos de experiência.
No fim, o híbrido teve o melhor resultado, com 4,95/5,0. Quando dávamos apenas o resumo, era 2,65, mas ao acrescentar registros do processo como "falhou" e "causa desconhecida", os pontos fracos do resumo acabavam sendo compensados.
Então, a conclusão é: "o problema não é o resumo em si, mas sim que ele precisa incluir também o processo e as incertezas".
Mas, como N=1, ainda são necessários estudos posteriores para saber se isso pode ser usado de forma geral com diferentes perfis de usuários.