Habilidades de agentes de IA não entregam nem metade do desempenho de benchmark no mundo real
(arxiv.org)Este é um estudo da equipe de pesquisa da UC Santa Barbara, MIT CSAIL e MIT-IBM Watson AI Lab que avaliou de forma realista a capacidade de agentes de IA utilizarem habilidades.
A equipe coletou e testou 34.198 habilidades de código aberto (conhecimento estruturado como fluxos de trabalho, formas de uso de APIs e boas práticas). O benchmark existente (SKILLSBENCH) tinha o problema de superestimar o desempenho ao avaliar em uma condição ideal na qual a habilidade exata já era fornecida previamente ao agente.
Para melhorar isso, os pesquisadores projetaram um cenário realista em 6 etapas:
- fornecer a habilidade diretamente
- o agente escolhe a habilidade por conta própria
- misturar habilidades irrelevantes
- buscar em um grande conjunto de habilidades
- caso em que não existe nenhuma habilidade personalizada
Nos testes com modelos recentes como Claude Opus 4.6, Kimi K2.5 e Qwen3.5-397B:
-
Com base no Claude Opus 4.6
- com a habilidade fornecida diretamente: taxa de sucesso de 55,4%
- em condições reais (busca em larga escala + seleção): 40,1%
- quando não havia habilidade personalizada: 38,4% (apenas 3 p.p. acima da linha de base sem uso de habilidades, de 35,4%)
-
No caso de modelos mais fracos (Kimi, Qwen), usar habilidades teve até o efeito contrário, com o desempenho caindo abaixo da linha de base.
Principais causas da queda de desempenho
- Falha na seleção de habilidades: mesmo quando havia uma habilidade personalizada, o Claude recuperava corretamente apenas 49% delas
- Limite na precisão da busca: entre as 5 principais, a taxa de recuperação de habilidades relevantes (Recall@5) chegava no máximo a 65,5%
- Falta de capacidade de adaptação: não conseguem aplicar bem habilidades semelhantes de acordo com o contexto
Tentativas de melhoria e resultados
- Ao aplicar um método de refinar ou gerar habilidades por tarefa, o desempenho do Claude subiu de 40,1% → 48,2%, mas isso só funcionava quando as habilidades recuperadas inicialmente tinham alguma relevância.
- Também surgiu a opinião, como na pesquisa da Vercel, de que uma abordagem mais simples, como colocar um arquivo Markdown tipo AGENTS.md no contexto, é mais estável.
Conclusão e sugestões
As habilidades de agentes de IA hoje mostram desempenho inflado apenas em benchmarks; em ambientes reais de uso, sua eficácia é bastante limitada. Em modelos mais fracos, as habilidades podem até atrapalhar.
A equipe destacou a necessidade de técnicas de busca melhores, estratégias eficazes de refinamento offline de habilidades e projetar um ecossistema de habilidades compatível com a capacidade dos modelos. O artigo e o código estão disponíveis no GitHub.
Referência relacionada: https://aisparkup.com/posts/11097
Ainda não há comentários.