- A maioria das empresas que criam produtos de IA está presa na fase de experimentação e carece de sistemas e ferramentas confiáveis
- Nosso caso
- No começo deste ano, atualizamos o modelo LLM de
gpt-4o-2024-08-06 para gpt-4o-2024-11-20
- A taxa de aprovação nos testes de prompts essenciais caiu de 100% para 79%
- Enquanto isso, o Sonnet 3.5 da Anthropic mostrou uma taxa de aprovação de 95%
- Muitas empresas de IA falam de forma simplista sobre trocar de fornecedor
- Isso vai muito além de simplesmente dizer que é preciso testar a IA
- Construir uma infraestrutura de testes para medir o desempenho do modelo e quantificar o impacto de mudanças no modelo não é tão simples assim
- O que construímos para fazer essa quantificação
- Pelo menos 30 cenários de teste exclusivos
- Código para comparar a saída esperada do prompt com a saída real
- O próprio executor de testes
- Uma estratégia para executar os testes no CI com custo adequado
- A armadilha do AI MVP em que a maioria das equipes cai
- Etapa 1. MVP enganoso: surge uma demo que parece ter sido concluída em apenas alguns dias. Mas logo ela começa a cometer erros básicos
- Etapa 2. ±0: tenta-se melhorar isso, mas tudo só fica cada vez mais complexo e imprevisível. 90% da maioria das empresas está nesta etapa
- Etapa 3. Ciência: nesse ponto, percebe-se que são necessários testes de avaliação, ferramentas de observabilidade etc., e começa-se a construí-los
- Etapa 4. Funciona de verdade: finalmente, há monitoramento contínuo, um conjunto abrangente de testes de avaliação e ferramentas rápidas de análise
- Nada disso é fácil, simples ou trivial
- Muitas empresas permanecem na fase caótica de MVP e nem sequer entendem como está o desempenho dos recursos de IA que lançaram
- Vender produtos de IA dizendo que "tudo o que é preciso é X" simplifica demais a realidade
- Quando alguém disser que está construindo uma estratégia de IA multi-provider, pergunte como mede e avalia isso
Ainda não há comentários.