1 pontos por johnonlee 2 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

• A avaliação de LLMs ainda está no nível de “nota do SAT” — MMLU, HumanEval e SWE-bench seguem todos o paradigma de sessão única e resposta única. Agentes de codificação reais trabalham ao longo de várias sessões, aprendem com erros e leem convenções existentes. Isso não é uma questão de conhecimento (knowledge), mas de comportamento (behavior).

• Ao contratar pessoas, olhamos menos para o histórico escolar e mais para “como elas pensam” — por que não fazemos isso na avaliação de LLMs? No momento, estamos parados na fase de “verificar o GPA”, em que todos os modelos ficam no percentil 90.

• Mesmo corrigindo o mesmo bug, as abordagens podem ser completamente diferentes — o Model A usa grep e faz um patch em 30 segundos (perfil de prototipagem), o Model B divide em subtarefas e segue uma abordagem sistemática (perfil de arquitetura), e o Model C aprende com precedentes no git log antes de corrigir (perfil de manutenção). Os três corrigem o bug. A pontuação é a mesma. A adequação ao papel é completamente diferente.

• Proposta de 4 dimensões de observação comportamental — Decomposition (decompõe ou executa direto), Approach (procura padrões ou raciocina a partir de princípios), Recovery (muda de estratégia quando trava ou insiste no mesmo caminho), Consistency (mostra a mesma abordagem em problemas parecidos).

Avaliação de conhecimento vs avaliação de comportamento

Benchmark atual O que mede O que deixa passar
MMLU Memorização de conhecimento Julgamento de aplicação, “consciência do que não sabe”
HumanEval Taxa de acerto na primeira tentativa Depuração, iteração, processo de adaptação
SWE-bench Se o patch passa ou não Caminho de abordagem, entendimento de arquitetura, aprendizado entre sessões

2026: as perguntas de que realmente precisamos

Agora que agentes de codificação deixaram de ser demo e viraram ferramentas reais de equipe, a pergunta que precisamos fazer não é “qual foi a nota”:

  • “qual modelo é mais adequado para manutenção de legado”
  • “que estilo de depuração combina com pair programming júnior”
  • “qual modelo mostra o comportamento mais previsível ao longo de semanas”

Essa é uma pergunta de adequação ao papel. É uma pergunta de contratação. E nós ainda estamos respondendo com nota de SAT.

O texto não apresenta o framework como algo finalizado. Com a postura de “corrijam-me se eu estiver errado”, ele deixa explicitamente abertas quatro hipóteses e incentiva a discussão nos comentários. Em abril de 2026, o artigo "In-Situ Behavioral Evaluation for LLM Fairness", de Tang et al., também aponta para uma direção semelhante.

Ainda não há comentários.

Ainda não há comentários.