36 pontos por ragingwind 7 일 전 | 2 comentários | Compartilhar no WhatsApp

Este é um texto sobre a metodologia de gestão da qualidade de agentes chamada "Skillify", proposta por Garry Tan, presidente da Y Combinator, com base em sua própria experiência operando agentes de IA. O ponto de partida é a percepção de que frameworks como o LangChain, que levantou US$ 160 milhões, oferecem ferramentas de teste, mas não oferecem um fluxo de trabalho que responda à pergunta "o que testar e em que ordem testar". Tan apresenta um checklist de 10 etapas para transformar erros cometidos por agentes não em ajustes pontuais de prompt, mas em estruturas permanentes compostas por arquivos de skill em Markdown, scripts determinísticos e testes automatizados.

Conceitos principais

  • O que é Skillify: quando ocorre uma falha do agente, trata-se de convertê-la em uma "skill" (procedimento em Markdown + script determinístico + testes) que torne essa falha impossível de reproduzir. Ao dizer "skillify it" durante a conversa, o agente executa automaticamente o processo de 10 etapas.
  • Distinção entre Latent e Deterministic: separa com clareza tarefas que exigem julgamento (latent, área de raciocínio do LLM) e tarefas que exigem precisão (deterministic, área de execução de código). O bug central, segundo ele, é quando o LLM tenta fazer "na cabeça" algo que o código poderia responder imediatamente, como cálculo de fuso horário ou busca em calendário, e acaba errando.
  • Checklist de 10 etapas: só é reconhecido como "skill" depois de passar por SKILL.md, criação de script determinístico, teste unitário (vitest), teste de integração, avaliação de LLM (LLM-as-judge), registro de gatilho do resolver, avaliação do resolver, auditoria de alcançabilidade/duplicação, teste de fumaça E2E e até regras de arquivamento no brain file.

Casos reais

  • Um caso em que, ao ser perguntado sobre uma agenda de viagem a Singapura de 10 anos atrás, o agente chamou APIs ao vivo por 5 minutos antes de descobrir tardiamente que os dados já podiam ser encontrados diretamente em 3.146 arquivos de calendário indexados localmente
  • Um caso em que respondeu "daqui a 28 minutos para a próxima reunião", quando na realidade faltavam 88 minutos — o LLM errou exatamente 1 hora ao calcular mentalmente a conversão de UTC para PT
  • Em ambos os casos, scripts existentes já tinham a resposta correta (executando em menos de 100 ms), mas o problema foi o agente optar por raciocinar em vez de executar o script

Diferenciais

  • Enquanto o LangChain ficou no nível de um "conjunto de ferramentas de teste", o Skillify propõe o próprio fluxo de trabalho opinativo "falha → skill → teste → correção permanente". A comparação é que, se o framework fornece apenas a matrícula na academia, o Skillify entrega a planilha de treino.
  • Ele também aponta que o Hermes Agent, da Nous Research, é bom em gerar skills automaticamente, mas sem testes essas skills se degradam com o tempo, reforçando que são necessários tanto "geração + verificação".

Implicações

  • O texto relembra que, em engenharia de software, o princípio de "anexar um teste de regressão a todo bug" já estava estabelecido em 2005, enquanto o campo de agentes de IA ainda não chegou a esse nível. A visão de que skills de agentes também se degradam sem testes, assim como qualquer codebase, soa como um alerta válido para toda a indústria.
  • O caso de operar mais de 40 skills e descobrir que 15% delas não estavam registradas no resolver, tornando-se "funcionalidades no escuro", mostra que, à medida que sistemas de agentes ganham escala, a gestão de discoverability passa a ser uma tarefa essencial.

2 comentários

 
tested 7 일 전

Então, onde dá para obter a skill que executa isto?

Se você disser "skillify it" durante a conversa, o agente executa automaticamente um processo de 10 etapas.

 
heyjude 7 일 전

A skill do skillify é uma funcionalidade incluída no gbrain.
https://github.com/garrytan/gbrain/…