3 pontos por davespark 14 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Este é um estudo da equipe de pesquisa da UC Santa Barbara, MIT CSAIL e MIT-IBM Watson AI Lab que avaliou de forma realista a capacidade de agentes de IA utilizarem habilidades.

A equipe coletou e testou 34.198 habilidades de código aberto (conhecimento estruturado como fluxos de trabalho, formas de uso de APIs e boas práticas). O benchmark existente (SKILLSBENCH) tinha o problema de superestimar o desempenho ao avaliar em uma condição ideal na qual a habilidade exata já era fornecida previamente ao agente.

Para melhorar isso, os pesquisadores projetaram um cenário realista em 6 etapas:

  • fornecer a habilidade diretamente
  • o agente escolhe a habilidade por conta própria
  • misturar habilidades irrelevantes
  • buscar em um grande conjunto de habilidades
  • caso em que não existe nenhuma habilidade personalizada

Nos testes com modelos recentes como Claude Opus 4.6, Kimi K2.5 e Qwen3.5-397B:

  • Com base no Claude Opus 4.6

    • com a habilidade fornecida diretamente: taxa de sucesso de 55,4%
    • em condições reais (busca em larga escala + seleção): 40,1%
    • quando não havia habilidade personalizada: 38,4% (apenas 3 p.p. acima da linha de base sem uso de habilidades, de 35,4%)
  • No caso de modelos mais fracos (Kimi, Qwen), usar habilidades teve até o efeito contrário, com o desempenho caindo abaixo da linha de base.

Principais causas da queda de desempenho

  1. Falha na seleção de habilidades: mesmo quando havia uma habilidade personalizada, o Claude recuperava corretamente apenas 49% delas
  2. Limite na precisão da busca: entre as 5 principais, a taxa de recuperação de habilidades relevantes (Recall@5) chegava no máximo a 65,5%
  3. Falta de capacidade de adaptação: não conseguem aplicar bem habilidades semelhantes de acordo com o contexto

Tentativas de melhoria e resultados

  • Ao aplicar um método de refinar ou gerar habilidades por tarefa, o desempenho do Claude subiu de 40,1% → 48,2%, mas isso só funcionava quando as habilidades recuperadas inicialmente tinham alguma relevância.
  • Também surgiu a opinião, como na pesquisa da Vercel, de que uma abordagem mais simples, como colocar um arquivo Markdown tipo AGENTS.md no contexto, é mais estável.

Conclusão e sugestões

As habilidades de agentes de IA hoje mostram desempenho inflado apenas em benchmarks; em ambientes reais de uso, sua eficácia é bastante limitada. Em modelos mais fracos, as habilidades podem até atrapalhar.

A equipe destacou a necessidade de técnicas de busca melhores, estratégias eficazes de refinamento offline de habilidades e projetar um ecossistema de habilidades compatível com a capacidade dos modelos. O artigo e o código estão disponíveis no GitHub.

Referência relacionada: https://aisparkup.com/posts/11097

Ainda não há comentários.

Ainda não há comentários.