Guia prático para melhorar produtos de IA rapidamente

(hamel.dev)

9 pontos por GN⁺ 2025-04-02 | Ainda não há comentários. | Compartilhar no WhatsApp

Muitas equipes de IA focam apenas na escolha de ferramentas e acabam negligenciando o que realmente importa: medir resultados e aprender iterativamente
Com base na experiência de ter ajudado a construir mais de 30 produtos de IA, o autor apresenta os padrões de execução em comum das equipes bem-sucedidas
O ponto central é uma mentalidade orientada por métricas e a construção de um roadmap baseado em experimentos

1. O erro mais comum: pular a análise de erros

A maioria das equipes de IA fica obcecada com arquitetura ou desenho de frameworks, mas não mede de fato a eficácia
Métricas genéricas de dashboard não ajudam
- Apego a “métricas de vaidade” sem significado real
- Excesso de métricas dispersa o foco da equipe
Análise de erros é a atividade com maior ROI
- Revisar logs de conversas reais
- Classificar os tipos de falha
- Escrever testes para esses problemas e medir as melhorias
Caso da NurtureBoss:
- Correção de erros no tratamento de datas
- Precisão melhorou de 33% para 95%
A análise bottom-up é mais eficaz do que a análise top-down
- Extrair padrões de falha com base em dados reais
- Até uma tabela dinâmica simples pode gerar grandes insights

A ferramenta mais importante é aquela que permite à equipe ver facilmente as saídas reais da IA
- Uma interface personalizada para o domínio é mais eficaz do que ferramentas open source genéricas
- A NurtureBoss tornou possível iterar rapidamente usando seu próprio visualizador de dados
Requisitos de um bom visualizador:
- Mostrar todo o contexto em uma única tela
- Facilitar a coleta de feedback
- Permitir anotações abertas
- Filtragem e ordenação rápidas
- Suporte a atalhos para melhorar a usabilidade
Dá para construir isso em poucas horas com FastHTML, MonsterUI etc.
- Também é válido começar com uma planilha simples

Melhorar o desempenho da IA costuma ser mais eficaz quando especialistas que nem conhecem tão bem IA lideram o processo
Prompts são frases em inglês, então até pessoas não técnicas conseguem escrevê-los
Se a UI do produto oferecer um ambiente de prompts integrado em “modo administrador”, isso otimiza a aprendizagem iterativa
Dicas de comunicação com especialistas de domínio:
- Remover jargão técnico desnecessário
- Ex.: “método RAG” → “garantir contexto para que a IA responda à pergunta”
- Por que usar linguagem precisa é importante na comunicação interna da equipe

É possível avaliar IA mesmo sem dados de usuários
- Um LLM pode gerar dados sintéticos
Três dimensões para criar bons dados sintéticos:
- Função (ex.: busca de imóveis, reservas etc.)
- Cenário (ex.: sem correspondência, múltiplas correspondências etc.)
- Persona (ex.: comprador iniciante, investidor etc.)
Exemplo de um projeto real do setor imobiliário:
- Montagem do banco de dados por cenário para gerar queries sintéticas
- O LLM gera perguntas de usuários e testa o sistema
Guia para criar dados sintéticos:
- Gerar exemplos variados
- Gerar com foco nos dados de entrada
- Refletir as restrições do sistema
- Validar a consistência dos cenários de teste
- Começar pelos casos simples e expandir gradualmente

Muitas equipes criam um sistema de avaliação e depois passam a ignorá-lo por desconfiança
É comum que os critérios de avaliação sofram criteria drift ao longo do tempo
Abordagens para manter a confiança:
- Preferir avaliações binárias (pass/fail) para garantir clareza e consistência
- Adicionar críticas detalhadas para fornecer contexto qualitativo
- Medir o alinhamento entre avaliação automática e avaliação humana
  - Ex.: no projeto Honeycomb, após 3 iterações, a avaliação por LLM alcançou mais de 90% de concordância
  - Também é possível usar a ferramenta AlignEval, de Eugene Yan
Estratégia para escalar:
- Não eliminar totalmente a avaliação humana; em vez disso, concentrá-la nas amostras mais informativas
- Comparar periodicamente avaliação automática e julgamento humano para recalibrar os critérios

O tradicional “roadmap orientado por features” não se encaixa bem em IA
Bryan Bischof, ex-chefe de IA da Hex, propõe a abordagem do “capability funnel”
- Ex.: funil de um assistente de queries
  1. Acertar apenas a sintaxe da query
  2. Conseguir executar sem erro
  3. Retornar resultados relevantes
  4. Corresponder à intenção
  5. Resolver completamente o problema
Gestão de cronograma orientada por experimentos, segundo Eugene Yan:
- Verificação de viabilidade de dados → verificação de viabilidade técnica → criação de protótipo → teste A/B
- Compartilhar os resultados dos experimentos com a liderança e, se não houver viabilidade, decidir a mudança já no estágio inicial
Criar uma cultura de compartilhamento de fracassos:
- Compartilhar internamente que “falhar também é resultado”
- Formar um ambiente que incentive iteração e experimentação

Equipes de IA bem-sucedidas focam mais em medir, iterar e aprender do que em ferramentas complexas
Seis princípios para colocar em prática:
1. Verificar os dados diretamente e executar análise de erros
2. Criar ferramentas simples e eficientes para apoiar a aprendizagem iterativa
3. Estimular e dar poder à participação de especialistas de domínio
4. Fazer o bootstrap do sistema inicial de avaliação com dados sintéticos
5. Manter a confiança com avaliação binária + críticas + checagem de alinhamento
6. Operar o roadmap com base no número de experimentos, não de funcionalidades