Ponto cego na avaliação de LLMs: por que olhamos apenas para o 'conhecimento', e não para o 'comportamento'?

(dev.to/johnonlee)

14 pontos por johnonlee 2026-05-27 | 5 comentários | Compartilhar no WhatsApp

• A avaliação de LLMs ainda está no nível de “nota do SAT” — MMLU, HumanEval e SWE-bench seguem todos o paradigma de sessão única e resposta única. Agentes de codificação reais trabalham ao longo de várias sessões, aprendem com erros e leem convenções existentes. Isso não é uma questão de conhecimento (knowledge), mas de comportamento (behavior).

• Ao contratar pessoas, olhamos menos para o histórico escolar e mais para “como elas pensam” — por que não fazemos isso na avaliação de LLMs? No momento, estamos parados na fase de “verificar o GPA”, em que todos os modelos ficam no percentil 90.

• Mesmo corrigindo o mesmo bug, as abordagens podem ser completamente diferentes — o Model A usa grep e faz um patch em 30 segundos (perfil de prototipagem), o Model B divide em subtarefas e segue uma abordagem sistemática (perfil de arquitetura), e o Model C aprende com precedentes no git log antes de corrigir (perfil de manutenção). Os três corrigem o bug. A pontuação é a mesma. A adequação ao papel é completamente diferente.

• Proposta de 4 dimensões de observação comportamental — Decomposition (decompõe ou executa direto), Approach (procura padrões ou raciocina a partir de princípios), Recovery (muda de estratégia quando trava ou insiste no mesmo caminho), Consistency (mostra a mesma abordagem em problemas parecidos).

Avaliação de conhecimento vs avaliação de comportamento

Benchmark atual	O que mede	O que deixa passar
MMLU	Memorização de conhecimento	Julgamento de aplicação, “consciência do que não sabe”
HumanEval	Taxa de acerto na primeira tentativa	Depuração, iteração, processo de adaptação
SWE-bench	Se o patch passa ou não	Caminho de abordagem, entendimento de arquitetura, aprendizado entre sessões

2026: as perguntas de que realmente precisamos

Agora que agentes de codificação deixaram de ser demo e viraram ferramentas reais de equipe, a pergunta que precisamos fazer não é “qual foi a nota”:

“qual modelo é mais adequado para manutenção de legado”
“que estilo de depuração combina com pair programming júnior”
“qual modelo mostra o comportamento mais previsível ao longo de semanas”

Essa é uma pergunta de adequação ao papel. É uma pergunta de contratação. E nós ainda estamos respondendo com nota de SAT.

O texto não apresenta o framework como algo finalizado. Com a postura de “corrijam-me se eu estiver errado”, ele deixa explicitamente abertas quatro hipóteses e incentiva a discussão nos comentários. Em abril de 2026, o artigo "In-Situ Behavioral Evaluation for LLM Fairness", de Tang et al., também aponta para uma direção semelhante.

5 comentários

husky81 2026-05-28

Pensando bem, até o vestibular que avalia as pessoas acaba olhando só para conhecimento, e não para comportamento.

cronex 2026-05-27

Se mantivesse um padrão consistente, tudo bem, mas como muda toda vez que a gente usa... acabei ficando sem saber como avaliar.

johnonlee 2026-05-27

Concordo. Não existe uma resposta certa, mas acho que vale a pena olhar também por esse ângulo. Hoje fazemos um modelo cuidar de uma tarefa do começo ao fim, mas imagino que amanhã possa haver uma mudança para algo em que cada modelo assuma, ao longo do processo, apenas as áreas em que é melhor. Se todos estudarem bastante, podem acabar tendo um nível de conhecimento até parecido, mas dependendo dos padrões de comportamento, podem surgir diferenças no resultado final.

b8g6pn 2026-05-27

Como não existe resposta certa e o critério humano também é fazer isso com precisão usando poucos recursos, não seria mais adequado avaliar pela quantidade de tokens e pelo nível de desempenho alcançado? Se começar a se intrometer até no método, aí fica realmente muito difícil...

aliveornot 2026-05-27

Não é uma afirmação errada, mas existe uma resposta para isso? Até em contratações reais é difícil pontuar esse tipo de coisa, então as pessoas também são contratadas, testadas no trabalho e depois dispensadas... como quando se usa um modelo de IA e depois se troca por outro.

Ponto cego na avaliação de LLMs: por que olhamos apenas para o 'conhecimento', e não para o 'comportamento'?

Avaliação de conhecimento vs avaliação de comportamento

2026: as perguntas de que realmente precisamos

Leituras relacionadas

5 comentários