16 pontos por winterjung 2025-04-03 | Ainda não há comentários. | Compartilhar no WhatsApp
  • A maioria das empresas que criam produtos de IA está presa na fase de experimentação e carece de sistemas e ferramentas confiáveis
  • Nosso caso
    • No começo deste ano, atualizamos o modelo LLM de gpt-4o-2024-08-06 para gpt-4o-2024-11-20
    • A taxa de aprovação nos testes de prompts essenciais caiu de 100% para 79%
    • Enquanto isso, o Sonnet 3.5 da Anthropic mostrou uma taxa de aprovação de 95%
  • Muitas empresas de IA falam de forma simplista sobre trocar de fornecedor
    • Isso vai muito além de simplesmente dizer que é preciso testar a IA
    • Construir uma infraestrutura de testes para medir o desempenho do modelo e quantificar o impacto de mudanças no modelo não é tão simples assim
  • O que construímos para fazer essa quantificação
    • Pelo menos 30 cenários de teste exclusivos
    • Código para comparar a saída esperada do prompt com a saída real
    • O próprio executor de testes
    • Uma estratégia para executar os testes no CI com custo adequado
  • A armadilha do AI MVP em que a maioria das equipes cai
    • Etapa 1. MVP enganoso: surge uma demo que parece ter sido concluída em apenas alguns dias. Mas logo ela começa a cometer erros básicos
    • Etapa 2. ±0: tenta-se melhorar isso, mas tudo só fica cada vez mais complexo e imprevisível. 90% da maioria das empresas está nesta etapa
    • Etapa 3. Ciência: nesse ponto, percebe-se que são necessários testes de avaliação, ferramentas de observabilidade etc., e começa-se a construí-los
    • Etapa 4. Funciona de verdade: finalmente, há monitoramento contínuo, um conjunto abrangente de testes de avaliação e ferramentas rápidas de análise
  • Nada disso é fácil, simples ou trivial
    • Muitas empresas permanecem na fase caótica de MVP e nem sequer entendem como está o desempenho dos recursos de IA que lançaram
    • Vender produtos de IA dizendo que "tudo o que é preciso é X" simplifica demais a realidade
    • Quando alguém disser que está construindo uma estratégia de IA multi-provider, pergunte como mede e avalia isso

Ainda não há comentários.

Ainda não há comentários.