• A avaliação de LLMs ainda está no nível de “nota do SAT” — MMLU, HumanEval e SWE-bench seguem todos o paradigma de sessão única e resposta única. Agentes de codificação reais trabalham ao longo de várias sessões, aprendem com erros e leem convenções existentes. Isso não é uma questão de conhecimento (knowledge), mas de comportamento (behavior).
• Ao contratar pessoas, olhamos menos para o histórico escolar e mais para “como elas pensam” — por que não fazemos isso na avaliação de LLMs? No momento, estamos parados na fase de “verificar o GPA”, em que todos os modelos ficam no percentil 90.
• Mesmo corrigindo o mesmo bug, as abordagens podem ser completamente diferentes — o Model A usa grep e faz um patch em 30 segundos (perfil de prototipagem), o Model B divide em subtarefas e segue uma abordagem sistemática (perfil de arquitetura), e o Model C aprende com precedentes no git log antes de corrigir (perfil de manutenção). Os três corrigem o bug. A pontuação é a mesma. A adequação ao papel é completamente diferente.
• Proposta de 4 dimensões de observação comportamental — Decomposition (decompõe ou executa direto), Approach (procura padrões ou raciocina a partir de princípios), Recovery (muda de estratégia quando trava ou insiste no mesmo caminho), Consistency (mostra a mesma abordagem em problemas parecidos).
Avaliação de conhecimento vs avaliação de comportamento
| Benchmark atual | O que mede | O que deixa passar |
|---|---|---|
| MMLU | Memorização de conhecimento | Julgamento de aplicação, “consciência do que não sabe” |
| HumanEval | Taxa de acerto na primeira tentativa | Depuração, iteração, processo de adaptação |
| SWE-bench | Se o patch passa ou não | Caminho de abordagem, entendimento de arquitetura, aprendizado entre sessões |
2026: as perguntas de que realmente precisamos
Agora que agentes de codificação deixaram de ser demo e viraram ferramentas reais de equipe, a pergunta que precisamos fazer não é “qual foi a nota”:
- “qual modelo é mais adequado para manutenção de legado”
- “que estilo de depuração combina com pair programming júnior”
- “qual modelo mostra o comportamento mais previsível ao longo de semanas”
Essa é uma pergunta de adequação ao papel. É uma pergunta de contratação. E nós ainda estamos respondendo com nota de SAT.
O texto não apresenta o framework como algo finalizado. Com a postura de “corrijam-me se eu estiver errado”, ele deixa explicitamente abertas quatro hipóteses e incentiva a discussão nos comentários. Em abril de 2026, o artigo "In-Situ Behavioral Evaluation for LLM Fairness", de Tang et al., também aponta para uma direção semelhante.
Ainda não há comentários.