Habilidades de agentes de IA não entregam nem metade do desempenho de benchmark no mundo real

(arxiv.org)

3 pontos por davespark 14 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Este é um estudo da equipe de pesquisa da UC Santa Barbara, MIT CSAIL e MIT-IBM Watson AI Lab que avaliou de forma realista a capacidade de agentes de IA utilizarem habilidades.

A equipe coletou e testou 34.198 habilidades de código aberto (conhecimento estruturado como fluxos de trabalho, formas de uso de APIs e boas práticas). O benchmark existente (SKILLSBENCH) tinha o problema de superestimar o desempenho ao avaliar em uma condição ideal na qual a habilidade exata já era fornecida previamente ao agente.

Para melhorar isso, os pesquisadores projetaram um cenário realista em 6 etapas:

fornecer a habilidade diretamente
o agente escolhe a habilidade por conta própria
misturar habilidades irrelevantes
buscar em um grande conjunto de habilidades
caso em que não existe nenhuma habilidade personalizada

Nos testes com modelos recentes como Claude Opus 4.6, Kimi K2.5 e Qwen3.5-397B:

Com base no Claude Opus 4.6
- com a habilidade fornecida diretamente: taxa de sucesso de 55,4%
- em condições reais (busca em larga escala + seleção): 40,1%
- quando não havia habilidade personalizada: 38,4% (apenas 3 p.p. acima da linha de base sem uso de habilidades, de 35,4%)
No caso de modelos mais fracos (Kimi, Qwen), usar habilidades teve até o efeito contrário, com o desempenho caindo abaixo da linha de base.

Principais causas da queda de desempenho

Falha na seleção de habilidades: mesmo quando havia uma habilidade personalizada, o Claude recuperava corretamente apenas 49% delas
Limite na precisão da busca: entre as 5 principais, a taxa de recuperação de habilidades relevantes (Recall@5) chegava no máximo a 65,5%
Falta de capacidade de adaptação: não conseguem aplicar bem habilidades semelhantes de acordo com o contexto

Tentativas de melhoria e resultados

Ao aplicar um método de refinar ou gerar habilidades por tarefa, o desempenho do Claude subiu de 40,1% → 48,2%, mas isso só funcionava quando as habilidades recuperadas inicialmente tinham alguma relevância.
Também surgiu a opinião, como na pesquisa da Vercel, de que uma abordagem mais simples, como colocar um arquivo Markdown tipo AGENTS.md no contexto, é mais estável.

Conclusão e sugestões

As habilidades de agentes de IA hoje mostram desempenho inflado apenas em benchmarks; em ambientes reais de uso, sua eficácia é bastante limitada. Em modelos mais fracos, as habilidades podem até atrapalhar.

A equipe destacou a necessidade de técnicas de busca melhores, estratégias eficazes de refinamento offline de habilidades e projetar um ecossistema de habilidades compatível com a capacidade dos modelos. O artigo e o código estão disponíveis no GitHub.

Referência relacionada: https://aisparkup.com/posts/11097

Habilidades de agentes de IA não entregam nem metade do desempenho de benchmark no mundo real

Principais causas da queda de desempenho

Tentativas de melhoria e resultados

Conclusão e sugestões

Leituras relacionadas

Ainda não há comentários.