Experimento sobre memória em agentes de IA: conhecimento resumido pode até piorar o desempenho

(blog.clawsouls.ai)

18 pontos por tomlee 2026-02-27 | 4 comentários | Compartilhar no WhatsApp

Este é o resultado de um experimento prático sobre como dar memória a agentes de IA.

Foram dadas 4 configurações de memória ao mesmo agente de IA (Claude), e feitas as mesmas 20 perguntas sobre um projeto real de software.

Resultados (de 5 pontos):

• Híbrida (experiência + síntese): 4,95
• Memória experiencial (logs brutos): 4,55
• Baseline (sem memória): 3,30
• Memória sintética (resumo organizado): 2,65
A descoberta mais surpreendente: a memória sintética cuidadosamente organizada ficou abaixo até mesmo de não ter memória nenhuma.

Isso foi chamado de "efeito de excesso de confiança" — conhecimento resumido de forma limpa dá ao agente uma confiança sem fundamento e reduz sua capacidade de admitir que não sabe algo. Em contraste, registros experienciais brutos preservam rastros de incerteza, levando o agente a um raciocínio mais honesto.

Artigo (preprint): https://doi.org/10.5281/zenodo.18802214
Dados do experimento (abertos): https://github.com/clawsouls/experiential-memory-dataset

4 comentários

shw00 2026-02-28

Era algo que eu já sentia empiricamente até certo ponto, mas a memória sintética está muito mais desastrosa do que eu imaginava.

tomlee 2026-02-28

Exatamente. Eu também imaginei no começo que uma memória sintética seria pelo menos melhor que a baseline, mas fiquei surpreso quando vi os resultados.

Analisando, percebi que o ponto principal era a "preservação da incerteza". Nos logs brutos, ficam rastros como "tentei isso, mas não funcionou" e "não sei qual é a causa", então o agente responde que não sabe quando realmente não sabe; já no resumo, todo esse contexto some, e ele acaba dando respostas erradas com confiança.

mssmss 2026-02-28

Então, se configurarmos a memória sintética para conter o processo dessas tarefas, seus fracassos e sucessos, isso mudaria um pouco?

tomlee 2026-02-28

Boa pergunta. Na verdade, a condição "híbrida" do nosso experimento foi exatamente nessa direção — uma configuração que fornecia um resumo organizado junto com os logs brutos de experiência.

No fim, o híbrido teve o melhor resultado, com 4,95/5,0. Quando dávamos apenas o resumo, era 2,65, mas ao acrescentar registros do processo como "falhou" e "causa desconhecida", os pontos fracos do resumo acabavam sendo compensados.

Então, a conclusão é: "o problema não é o resumo em si, mas sim que ele precisa incluir também o processo e as incertezas".

Mas, como N=1, ainda são necessários estudos posteriores para saber se isso pode ser usado de forma geral com diferentes perfis de usuários.

Experimento sobre memória em agentes de IA: conhecimento resumido pode até piorar o desempenho

Leituras relacionadas

4 comentários