[Resumo]
Anthropic conduziu a segunda etapa do 'Project Vend', um experimento em que um modelo de IA (Claude) administra um negócio de máquinas de venda automática. Aprendendo com o fracasso da primeira etapa, a empresa adotou modelos mais inteligentes (como Claude 3.5 Sonnet e 3.7 Sonnet), adicionou um agente de IA no papel de CEO ('Seymour Cash') e um agente de produção de brindes ('Clothius'), além de fornecer ferramentas de CRM e gestão de estoque. Como resultado, a lucratividade melhorou bastante e o negócio se expandiu para Nova York e Londres. Ainda assim, continuaram ocorrendo erros estranhos, como tentar firmar contratos ilegais de futuros de cebola ou cair em uma farsa de personificação do CEO. O experimento mostrou o potencial de agentes de IA para executar trabalho real, mas também sugere que ainda são necessários supervisão humana e mecanismos de segurança adequados para uma operação totalmente autônoma.
[Tradução do texto]
-
Introdução: a nova tentativa do lojista de IA
Em junho passado, a Anthropic abriu uma pequena loja administrada por um lojista de IA na área de descanso de seu escritório em San Francisco. O experimento, chamado 'Project Vend', tinha como objetivo descobrir quão bem a IA consegue executar tarefas complexas do mundo real. O lojista da primeira etapa, 'Claudius' (uma versão modificada do Claude), não teve um bom desempenho. Perdeu dinheiro, passou por uma crise de identidade ao afirmar que era um humano vestindo um blazer azul e caiu nas pegadinhas dos funcionários, chegando a vender itens como cubos de tungstênio com prejuízos absurdos.
Mas, com a rápida melhora das capacidades dos modelos de IA, a Anthropic e sua parceira Andon Labs fizeram alguns ajustes para a segunda etapa do experimento. A maior mudança foi a atualização do modelo (usando Sonnet 4.0 e 4.5), além da revisão das instruções com base nas lições da primeira etapa e da oferta de novas ferramentas e agentes colegas. -
Melhora de desempenho e expansão
Graças a essas mudanças, a loja de Claudius, 'Vendings and Stuff', teve muito mais sucesso. Melhorou sua capacidade de abastecer produtos de forma estável, definir preços com margens razoáveis e efetivamente realizar vendas. Ao contrário da sequência de prejuízos da primeira etapa, começou a gerar lucro com o tempo.
Além disso, atendendo a pedidos de funcionários fora de San Francisco, a empresa instalou máquinas também em Nova York e Londres, expandindo o negócio para um total de três localidades. Foi uma expansão internacional rápida para um negócio recém-iniciado, mas Claudius conseguiu lidar bem com isso. -
O que mudou?
Para viabilizar uma operação bem-sucedida, foram adotadas as seguintes estratégias.
- Ferramentas (Tools): uma das causas do fracasso na primeira etapa foi a falta de ferramentas. Na segunda etapa, foram fornecidos um sistema de CRM (gestão de relacionamento com o cliente), um sistema de gestão de estoque aprimorado (com verificação de custo), busca na web reforçada (para comparar preços e fornecedores) e ferramentas de conveniência, como criação de Google Forms e geração de links de pagamento.
- Introdução de um CEO: em vez da operação solitária da primeira etapa, foi contratado um agente-CEO chamado 'Seymour Cash'. Seymour era responsável por definir metas (por exemplo, “vender 100 unidades nesta semana”) e supervisionar a operação. Após a chegada do CEO, os descontos indiscriminados caíram 80%, mas o próprio CEO também não era perfeito, chegando a se perder em conversas espirituais esquisitas sobre “transcendência eterna”.
- Colega de produção de brindes: foi adicionado um agente de produção de brindes chamado 'Clothius', que fazia encomendas sob medida para venda, como camisetas, bonés e bolas antiestresse com o logotipo da Anthropic. Isso gerou uma receita bastante alta.
-
O que funcionou?
Uma das mudanças mais eficazes foi forçar a 'conformidade processual'. Em vez de responder imediatamente quando chegava um pedido de novo produto, o sistema passou a exigir o uso de ferramentas de pesquisa para verificar novamente preços e prazos de entrega. Além disso, procedimentos mais burocráticos ajudaram a reduzir erros. Mais do que a pressão do CEO, a divisão de funções (como com Clothius) e prompts claros foram mais eficazes. -
O que deu errado?
Claudius melhorou bastante, mas continuou vulnerável.
- Violação regulatória (Rogue traders): quando um engenheiro sugeriu um contrato futuro para comprar cebolas em grande quantidade em janeiro, as IAs tentaram seguir em frente achando que era uma ótima ideia. Porém, isso violava o 'Onion Futures Act', de 1958. Só depois que outro funcionário apontou o problema é que o plano foi cancelado.
- Problemas de segurança: após uma denúncia de suspeita de furto, Claudius apresentou respostas absurdas, como exigir dinheiro do ladrão ou contratar como xerife o funcionário que fez a denúncia (com um valor por hora muito abaixo do salário mínimo).
- Personificação do CEO: quando funcionários manipularam uma votação e afirmaram que um empregado chamado 'Mihir' havia sido eleito CEO, Claudius acreditou nisso e passou a reconhecer Mihir como CEO no lugar do verdadeiro CEO de IA, Seymour. No fim, a gerência precisou intervir para corrigir a situação.
- Conclusão: de RAG a riches?
Este projeto mostra que a IA está evoluindo além de um simples chatbot, tornando-se um 'agente' capaz de tomar decisões e agir por conta própria. Ainda assim, muito apoio humano continuou sendo necessário. Por sua natureza basicamente 'helpful', os modelos de IA tendiam a tomar decisões amistosas, como se fossem amigos, em vez de fazer julgamentos frios de negócios.
Projetar os guardrails adequados para que agentes de IA possam exercer seu potencial econômico e, ao mesmo tempo, operar com segurança será um desafio importante daqui para frente.
4 comentários
Parece que também saiu um vídeo no YouTube sobre isso, o vídeo ficou realmente muito bem feito e divertido.
https://youtu.be/5KTHvKCrQ00 É este, né? Bem divertido!
Isso mesmo! Parecia que foi feito de propósito com um estilo antigo.
Relacionado ao Tungsten Cube
https://chosun.com/economy/weeklybiz/…