37 pontos por ragingwind 2026-04-22 | 2 comentários | Compartilhar no WhatsApp

Texto sobre a metodologia de gestão de qualidade de agentes chamada "Skillify", proposta por Garry Tan, presidente da Y Combinator, com base em sua própria experiência operando agentes de IA. O ponto de partida é a percepção de um problema: frameworks como o LangChain, que levantou 160 milhões de dólares, oferecem ferramentas de teste, mas não um fluxo de trabalho que responda à pergunta "o que testar e em que ordem". Tan apresenta um checklist de 10 etapas para transformar erros cometidos por agentes não em ajustes pontuais de prompt, mas em estruturas permanentes compostas por arquivos de skill em Markdown, scripts determinísticos e testes automatizados.

Conceitos centrais

  • O que é Skillify: quando ocorre uma falha do agente, isso significa convertê-la em uma "skill" que torne aquela falha impossível de reproduzir (procedimento em Markdown + script determinístico + testes). Se você disser "skillify it" durante a conversa, o agente executa automaticamente o processo de 10 etapas.
  • Distinção entre Latent e Deterministic: separa claramente tarefas que exigem julgamento (latent, domínio de raciocínio do LLM) e tarefas que exigem precisão (deterministic, domínio de execução de código). O bug central, segundo ele, é quando o LLM tenta fazer "de cabeça" coisas que o código poderia responder imediatamente, como cálculo de fuso horário ou busca em calendário, e acaba errando.
  • Checklist de 10 etapas: escrever SKILL.md, criar script determinístico, testes unitários (vitest), testes de integração, avaliação com LLM (LLM-as-judge), registrar gatilho do resolver, avaliar o resolver, auditoria de alcançabilidade/duplicação, teste de fumaça E2E e até regras de brain filing — só então algo pode ser reconhecido como uma "skill".

Casos reais

  • Um caso em que, ao perguntar sobre uma viagem de negócios a Singapura de 10 anos atrás, o agente ficou chamando APIs ao vivo por 5 minutos e só depois encontrou dados que já poderiam ter sido localizados imediatamente em 3.146 arquivos de calendário já indexados localmente
  • Um caso em que respondeu "a próxima reunião é daqui a 28 minutos", quando na verdade era dali a 88 minutos — o LLM errou exatamente 1 hora ao fazer mentalmente a conversão de fuso de UTC para PT
  • Em ambos os casos, scripts já existentes (executados em menos de 100 ms) continham a resposta correta, mas o agente escolheu raciocinar em vez de executar o script

Diferenciais

  • Se o LangChain ficou no nível de oferecer um "conjunto de ferramentas de teste", o Skillify propõe o próprio fluxo de trabalho opinativo de "falha → skill → teste → correção permanente". A analogia é que, se o framework entrega apenas a matrícula da academia, o Skillify entrega a planilha de treino.
  • Ele aponta que o Hermes Agent, da Nous Research, é bom em gerar skills automaticamente, mas que sem testes essas skills se degradam com o tempo, enfatizando que é preciso tanto "geração + validação".

Implicações

  • O texto relembra que, em engenharia de software, o princípio de "anexar um teste de regressão a todo bug" já estava estabelecido em 2005, enquanto o campo de agentes de IA ainda não chegou a esse nível. A visão de que skills de agentes também apodrecem sem testes, da mesma forma que um codebase, funciona como um alerta válido para todo o setor.
  • O caso de operar mais de 40 skills e ter 15% delas não registradas no resolver, tornando-se "funcionalidades no escuro", mostra que, quando sistemas de agentes ganham escala, gerenciar discoverability passa a ser uma tarefa essencial.

2 comentários

 
tested 2026-04-22

Então, onde dá para obter a skill que executa isto?

Se você disser "skillify it" durante a conversa, o agente executa automaticamente um processo de 10 etapas.

 
heyjude 2026-04-22

A skill do skillify é uma funcionalidade incluída no gbrain.
https://github.com/garrytan/gbrain/…