Além do AI MVP: o que realmente é necessário

winterjung · 2025-04-03T12:56:26+09:00

A maioria das empresas que criam produtos de IA está presa na fase de experimentação e carece de sistemas e ferramentas confiáveis Nosso caso No começo deste ano, atualizamos o modelo LLM de gpt-4o-2024-08-06 para gpt-4o-2024-11-20 A taxa de aprovação nos testes de prompts essenciais caiu de 100% para 79% Enquanto isso, o Sonnet 3.5 da Anthropic mostrou uma taxa de aprovação de 95% Muitas empresas de IA falam de forma simplista sobre trocar de fornecedor Isso vai muito além de simplesmente dizer que é preciso testar a IA Construir uma infraestrutura de testes para medir o desempenho do modelo e quantificar o impacto de mudanças no modelo não é tão simples assim O que construímos para fazer essa quantificação Pelo menos 30 cenários de teste exclusivos Código para comparar a saída esperada do prompt com a saída real O próprio executor de testes Uma estratégia para executar os testes no CI com custo adequado A armadilha do AI MVP em que a maioria das equipes cai Etapa 1. MVP enganoso: surge uma demo que parece ter sido concluída em apenas alguns dias. Mas logo ela começa a cometer erros básicos Etapa 2. ±0: tenta-se melhorar isso, mas tudo só fica cada vez mais complexo e imprevisível. 90% da maioria das empresas está nesta etapa Etapa 3. Ciência: nesse ponto, percebe-se que são necessários testes de avaliação, ferramentas de observabilidade etc., e começa-se a construí-los Etapa 4. Funciona de verdade: finalmente, há monitoramento contínuo, um conjunto abrangente de testes de avaliação e ferramentas rápidas de análise Nada disso é fácil, simples ou trivial Muitas empresas permanecem na fase caótica de MVP e nem sequer entendem como está o desempenho dos recursos de IA que lançaram Vender produtos de IA dizendo que "tudo o que é preciso é X" simplifica demais a realidade Quando alguém disser que está construindo uma estratégia de IA multi-provider, pergunte como mede e avalia isso

(blog.lawrencejones.dev)

16 pontos por winterjung 2025-04-03 | Ainda não há comentários. | Compartilhar no WhatsApp

A maioria das empresas que criam produtos de IA está presa na fase de experimentação e carece de sistemas e ferramentas confiáveis
Nosso caso
- No começo deste ano, atualizamos o modelo LLM de gpt-4o-2024-08-06 para gpt-4o-2024-11-20
- A taxa de aprovação nos testes de prompts essenciais caiu de 100% para 79%
- Enquanto isso, o Sonnet 3.5 da Anthropic mostrou uma taxa de aprovação de 95%
Muitas empresas de IA falam de forma simplista sobre trocar de fornecedor
- Isso vai muito além de simplesmente dizer que é preciso testar a IA
- Construir uma infraestrutura de testes para medir o desempenho do modelo e quantificar o impacto de mudanças no modelo não é tão simples assim
O que construímos para fazer essa quantificação
- Pelo menos 30 cenários de teste exclusivos
- Código para comparar a saída esperada do prompt com a saída real
- O próprio executor de testes
- Uma estratégia para executar os testes no CI com custo adequado
A armadilha do AI MVP em que a maioria das equipes cai
- Etapa 1. MVP enganoso: surge uma demo que parece ter sido concluída em apenas alguns dias. Mas logo ela começa a cometer erros básicos
- Etapa 2. ±0: tenta-se melhorar isso, mas tudo só fica cada vez mais complexo e imprevisível. 90% da maioria das empresas está nesta etapa
- Etapa 3. Ciência: nesse ponto, percebe-se que são necessários testes de avaliação, ferramentas de observabilidade etc., e começa-se a construí-los
- Etapa 4. Funciona de verdade: finalmente, há monitoramento contínuo, um conjunto abrangente de testes de avaliação e ferramentas rápidas de análise
Nada disso é fácil, simples ou trivial
- Muitas empresas permanecem na fase caótica de MVP e nem sequer entendem como está o desempenho dos recursos de IA que lançaram
- Vender produtos de IA dizendo que "tudo o que é preciso é X" simplifica demais a realidade
- Quando alguém disser que está construindo uma estratégia de IA multi-provider, pergunte como mede e avalia isso

Além do AI MVP: o que realmente é necessário

Leituras relacionadas

Ainda não há comentários.