9 pontos por GN⁺ 2025-04-02 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Muitas equipes de IA focam apenas na escolha de ferramentas e acabam negligenciando o que realmente importa: medir resultados e aprender iterativamente
  • Com base na experiência de ter ajudado a construir mais de 30 produtos de IA, o autor apresenta os padrões de execução em comum das equipes bem-sucedidas
  • O ponto central é uma mentalidade orientada por métricas e a construção de um roadmap baseado em experimentos

1. O erro mais comum: pular a análise de erros

  • A maioria das equipes de IA fica obcecada com arquitetura ou desenho de frameworks, mas não mede de fato a eficácia
  • Métricas genéricas de dashboard não ajudam
    • Apego a “métricas de vaidade” sem significado real
    • Excesso de métricas dispersa o foco da equipe
  • Análise de erros é a atividade com maior ROI
    • Revisar logs de conversas reais
    • Classificar os tipos de falha
    • Escrever testes para esses problemas e medir as melhorias
  • Caso da NurtureBoss:
    • Correção de erros no tratamento de datas
    • Precisão melhorou de 33% para 95%
  • A análise bottom-up é mais eficaz do que a análise top-down
    • Extrair padrões de falha com base em dados reais
    • Até uma tabela dinâmica simples pode gerar grandes insights

2. O investimento mais importante em IA: um visualizador de dados simples

  • A ferramenta mais importante é aquela que permite à equipe ver facilmente as saídas reais da IA
    • Uma interface personalizada para o domínio é mais eficaz do que ferramentas open source genéricas
    • A NurtureBoss tornou possível iterar rapidamente usando seu próprio visualizador de dados
  • Requisitos de um bom visualizador:
    • Mostrar todo o contexto em uma única tela
    • Facilitar a coleta de feedback
    • Permitir anotações abertas
    • Filtragem e ordenação rápidas
    • Suporte a atalhos para melhorar a usabilidade
  • Dá para construir isso em poucas horas com FastHTML, MonsterUI etc.
    • Também é válido começar com uma planilha simples

3. Dar poder de prompt aos especialistas de domínio

  • Melhorar o desempenho da IA costuma ser mais eficaz quando especialistas que nem conhecem tão bem IA lideram o processo
  • Prompts são frases em inglês, então até pessoas não técnicas conseguem escrevê-los
  • Se a UI do produto oferecer um ambiente de prompts integrado em “modo administrador”, isso otimiza a aprendizagem iterativa
  • Dicas de comunicação com especialistas de domínio:
    • Remover jargão técnico desnecessário
    • Ex.: “método RAG” → “garantir contexto para que a IA responda à pergunta”
    • Por que usar linguagem precisa é importante na comunicação interna da equipe

4. Possível mesmo sem usuários: bootstrap com dados sintéticos

  • É possível avaliar IA mesmo sem dados de usuários
    • Um LLM pode gerar dados sintéticos
  • Três dimensões para criar bons dados sintéticos:
    • Função (ex.: busca de imóveis, reservas etc.)
    • Cenário (ex.: sem correspondência, múltiplas correspondências etc.)
    • Persona (ex.: comprador iniciante, investidor etc.)
  • Exemplo de um projeto real do setor imobiliário:
    • Montagem do banco de dados por cenário para gerar queries sintéticas
    • O LLM gera perguntas de usuários e testa o sistema
  • Guia para criar dados sintéticos:
    • Gerar exemplos variados
    • Gerar com foco nos dados de entrada
    • Refletir as restrições do sistema
    • Validar a consistência dos cenários de teste
    • Começar pelos casos simples e expandir gradualmente

5. Manter a confiança no sistema de avaliação

  • Muitas equipes criam um sistema de avaliação e depois passam a ignorá-lo por desconfiança
  • É comum que os critérios de avaliação sofram criteria drift ao longo do tempo
  • Abordagens para manter a confiança:
    • Preferir avaliações binárias (pass/fail) para garantir clareza e consistência
    • Adicionar críticas detalhadas para fornecer contexto qualitativo
    • Medir o alinhamento entre avaliação automática e avaliação humana
      • Ex.: no projeto Honeycomb, após 3 iterações, a avaliação por LLM alcançou mais de 90% de concordância
      • Também é possível usar a ferramenta AlignEval, de Eugene Yan
  • Estratégia para escalar:
    • Não eliminar totalmente a avaliação humana; em vez disso, concentrá-la nas amostras mais informativas
    • Comparar periodicamente avaliação automática e julgamento humano para recalibrar os critérios

6. Um roadmap de IA orientado por experimentos, não por features

  • O tradicional “roadmap orientado por features” não se encaixa bem em IA
  • Bryan Bischof, ex-chefe de IA da Hex, propõe a abordagem do “capability funnel”
    • Ex.: funil de um assistente de queries
      1. Acertar apenas a sintaxe da query
      2. Conseguir executar sem erro
      3. Retornar resultados relevantes
      4. Corresponder à intenção
      5. Resolver completamente o problema
  • Gestão de cronograma orientada por experimentos, segundo Eugene Yan:
    • Verificação de viabilidade de dados → verificação de viabilidade técnica → criação de protótipo → teste A/B
    • Compartilhar os resultados dos experimentos com a liderança e, se não houver viabilidade, decidir a mudança já no estágio inicial
  • Criar uma cultura de compartilhamento de fracassos:
    • Compartilhar internamente que “falhar também é resultado”
    • Formar um ambiente que incentive iteração e experimentação

Conclusão e princípios centrais

  • Equipes de IA bem-sucedidas focam mais em medir, iterar e aprender do que em ferramentas complexas
  • Seis princípios para colocar em prática:
    1. Verificar os dados diretamente e executar análise de erros
    2. Criar ferramentas simples e eficientes para apoiar a aprendizagem iterativa
    3. Estimular e dar poder à participação de especialistas de domínio
    4. Fazer o bootstrap do sistema inicial de avaliação com dados sintéticos
    5. Manter a confiança com avaliação binária + críticas + checagem de alinhamento
    6. Operar o roadmap com base no número de experimentos, não de funcionalidades

Ainda não há comentários.

Ainda não há comentários.