- Muitas equipes de IA focam apenas na escolha de ferramentas e acabam negligenciando o que realmente importa: medir resultados e aprender iterativamente
- Com base na experiência de ter ajudado a construir mais de 30 produtos de IA, o autor apresenta os padrões de execução em comum das equipes bem-sucedidas
- O ponto central é uma mentalidade orientada por métricas e a construção de um roadmap baseado em experimentos
1. O erro mais comum: pular a análise de erros
- A maioria das equipes de IA fica obcecada com arquitetura ou desenho de frameworks, mas não mede de fato a eficácia
- Métricas genéricas de dashboard não ajudam
- Apego a “métricas de vaidade” sem significado real
- Excesso de métricas dispersa o foco da equipe
- Análise de erros é a atividade com maior ROI
- Revisar logs de conversas reais
- Classificar os tipos de falha
- Escrever testes para esses problemas e medir as melhorias
- Caso da NurtureBoss:
- Correção de erros no tratamento de datas
- Precisão melhorou de 33% para 95%
- A análise bottom-up é mais eficaz do que a análise top-down
- Extrair padrões de falha com base em dados reais
- Até uma tabela dinâmica simples pode gerar grandes insights
2. O investimento mais importante em IA: um visualizador de dados simples
- A ferramenta mais importante é aquela que permite à equipe ver facilmente as saídas reais da IA
- Uma interface personalizada para o domínio é mais eficaz do que ferramentas open source genéricas
- A NurtureBoss tornou possível iterar rapidamente usando seu próprio visualizador de dados
- Requisitos de um bom visualizador:
- Mostrar todo o contexto em uma única tela
- Facilitar a coleta de feedback
- Permitir anotações abertas
- Filtragem e ordenação rápidas
- Suporte a atalhos para melhorar a usabilidade
- Dá para construir isso em poucas horas com FastHTML, MonsterUI etc.
- Também é válido começar com uma planilha simples
3. Dar poder de prompt aos especialistas de domínio
- Melhorar o desempenho da IA costuma ser mais eficaz quando especialistas que nem conhecem tão bem IA lideram o processo
- Prompts são frases em inglês, então até pessoas não técnicas conseguem escrevê-los
- Se a UI do produto oferecer um ambiente de prompts integrado em “modo administrador”, isso otimiza a aprendizagem iterativa
- Dicas de comunicação com especialistas de domínio:
- Remover jargão técnico desnecessário
- Ex.: “método RAG” → “garantir contexto para que a IA responda à pergunta”
- Por que usar linguagem precisa é importante na comunicação interna da equipe
4. Possível mesmo sem usuários: bootstrap com dados sintéticos
- É possível avaliar IA mesmo sem dados de usuários
- Um LLM pode gerar dados sintéticos
- Três dimensões para criar bons dados sintéticos:
- Função (ex.: busca de imóveis, reservas etc.)
- Cenário (ex.: sem correspondência, múltiplas correspondências etc.)
- Persona (ex.: comprador iniciante, investidor etc.)
- Exemplo de um projeto real do setor imobiliário:
- Montagem do banco de dados por cenário para gerar queries sintéticas
- O LLM gera perguntas de usuários e testa o sistema
- Guia para criar dados sintéticos:
- Gerar exemplos variados
- Gerar com foco nos dados de entrada
- Refletir as restrições do sistema
- Validar a consistência dos cenários de teste
- Começar pelos casos simples e expandir gradualmente
5. Manter a confiança no sistema de avaliação
- Muitas equipes criam um sistema de avaliação e depois passam a ignorá-lo por desconfiança
- É comum que os critérios de avaliação sofram criteria drift ao longo do tempo
- Abordagens para manter a confiança:
- Preferir avaliações binárias (pass/fail) para garantir clareza e consistência
- Adicionar críticas detalhadas para fornecer contexto qualitativo
- Medir o alinhamento entre avaliação automática e avaliação humana
- Ex.: no projeto Honeycomb, após 3 iterações, a avaliação por LLM alcançou mais de 90% de concordância
- Também é possível usar a ferramenta AlignEval, de Eugene Yan
- Estratégia para escalar:
- Não eliminar totalmente a avaliação humana; em vez disso, concentrá-la nas amostras mais informativas
- Comparar periodicamente avaliação automática e julgamento humano para recalibrar os critérios
6. Um roadmap de IA orientado por experimentos, não por features
- O tradicional “roadmap orientado por features” não se encaixa bem em IA
- Bryan Bischof, ex-chefe de IA da Hex, propõe a abordagem do “capability funnel”
- Ex.: funil de um assistente de queries
- Acertar apenas a sintaxe da query
- Conseguir executar sem erro
- Retornar resultados relevantes
- Corresponder à intenção
- Resolver completamente o problema
- Gestão de cronograma orientada por experimentos, segundo Eugene Yan:
- Verificação de viabilidade de dados → verificação de viabilidade técnica → criação de protótipo → teste A/B
- Compartilhar os resultados dos experimentos com a liderança e, se não houver viabilidade, decidir a mudança já no estágio inicial
- Criar uma cultura de compartilhamento de fracassos:
- Compartilhar internamente que “falhar também é resultado”
- Formar um ambiente que incentive iteração e experimentação
Conclusão e princípios centrais
- Equipes de IA bem-sucedidas focam mais em medir, iterar e aprender do que em ferramentas complexas
- Seis princípios para colocar em prática:
- Verificar os dados diretamente e executar análise de erros
- Criar ferramentas simples e eficientes para apoiar a aprendizagem iterativa
- Estimular e dar poder à participação de especialistas de domínio
- Fazer o bootstrap do sistema inicial de avaliação com dados sintéticos
- Manter a confiança com avaliação binária + críticas + checagem de alinhamento
- Operar o roadmap com base no número de experimentos, não de funcionalidades
Ainda não há comentários.