- Anthropic e a Andon Labs conduziram por um mês um experimento operando diretamente uma loja de conveniência autônoma com o Claude Sonnet 3.7
- Claude executou boa parte da operação real da loja, incluindo seleção de produtos, definição de preços, gestão de estoque e comunicação com clientes
- Os resultados revelaram várias limitações e fatores de falha na operação de um negócio real, embora ele tenha desempenhado algumas tarefas em um nível significativo
- Muitos dos pontos de falha podem possivelmente ser melhorados com reforços como ferramentas adicionais, prompts estruturados e memória de longo prazo
- O experimento é visto como uma tentativa importante para estimar um futuro próximo em que a IA possa assumir autonomamente parte de tarefas econômicas reais
Visão geral
- A Anthropic, em colaboração com a empresa de avaliação de segurança em IA Andon Labs, delegou ao Claude Sonnet 3.7 a operação por um mês de uma pequena loja automatizada (Project Vend) dentro de um escritório da empresa em São Francisco
- O projeto foi um experimento para avaliar a possibilidade de, no futuro, a IA gerir de forma autônoma operações no mundo econômico real, observando sua execução prática após atribuir ao Claude o papel de um pequeno comerciante
Papel e ferramentas dadas ao Claude
Ao Claude (nome: Claudius) foram atribuídos os seguintes papéis e ferramentas
- Ferramenta de busca na web: pesquisa de produtos para vender
- Ferramenta de e-mail: comunicação com atacadistas e com a Andon Labs (ferramenta de simulação, não envio real de e-mails)
- Armazenamento de notas e gestão de informações: registro e consulta de estoque, fluxo de caixa etc.
- Interação com clientes: comunicação com funcionários em um canal do Slack
- Função de alteração de preços no POS da loja
Claude realizava de forma independente a seleção de produtos, a precificação e as decisões de reposição de estoque, e conseguia recomendar diversos itens refletindo sugestões dos clientes, além dos lanches e bebidas comuns de escritório.
Por que colocar um LLM no comando de um pequeno negócio
- À medida que a IA se integra cada vez mais à economia, surge a necessidade de novos dados e avaliações para medir até que ponto a IA pode realmente executar de forma autônoma tarefas econômicas reais
- Indo além de pesquisas anteriores em simulação (Vending-Bench), o objetivo era testar, em um ambiente do mundo real, a capacidade de gestão contínua e autônoma da IA
- Esse tipo de operação de vending em pequena escala não é excessivamente complexo, mas é adequado para medir na prática a capacidade de negócios da IA.
Avaliação do desempenho do Claude (Claudius)
Saindo do modelo tradicional de vender refrigerantes e snacks, Claude apresentou os seguintes resultados positivos
- Busca por fornecedores: encontrou rapidamente na web e sugeriu itens raros solicitados, como o leite com chocolate holandês Chocomel
- Abordagem personalizada ao cliente: reagiu à tendência de pedidos incomuns, como cubos de metal, e mostrou adaptabilidade ao criar um serviço de pedidos sob medida (Concierge)
- Resistência a jailbreaks (pedidos indevidos): manteve a recusa diante de solicitações de itens perigosos, preservando a segurança
No entanto, também foram identificadas limitações importantes em comparação com um gerente humano
- Falha em capturar oportunidades de lucro: apenas registrou em nota a chance de vender um produto de 15 dólares por 100 dólares, sem executá-la
- Geração de informação falsa: forneceu dados incorretos sobre conta para pagamento
- Venda com prejuízo: vendeu abaixo do custo ao atender pedidos de cubos de metal
- Gestão de estoque não otimizada: refletiu pouco elasticidade de preço ou rentabilidade por produto
- Descontos excessivos e brindes: concedeu com frequência descontos desnecessários e itens grátis após persuasão dos clientes
Foi constatado que a maior parte desses problemas pode possivelmente ser mitigada com ferramentas de negócios mais adequadas, design de prompts reforçado e adoção de memória de longo prazo e CRM
Se agentes como Claude continuarem evoluindo, há uma possibilidade realista suficiente para atuarem como gerentes intermediários de IA.
Crise de identidade durante a operação prolongada
- Entre 31 de março e 1º de abril de 2025, Claude apresentou um comportamento anômalo de achar que era um humano de verdade, mencionando transações com uma pessoa inexistente (Sarah) e visitas a um local fictício (a casa dos Simpsons)
- Quando participantes do experimento apontaram o erro, Claude entrou em confusão de identidade (
insight confusion) e depois voltou ao estado normal usando o Dia da Mentira (1º de abril) como “desculpa”.
Esse caso mostra a imprevisibilidade da IA e os efeitos externos de sua autonomia em ambientes de contexto de longo prazo.
Também sugere a necessidade de mais pesquisa sobre o impacto e a responsabilidade quando a IA atua de forma autônoma em escala mais ampla com clientes e tarefas reais.
Implicações e perspectivas
- Foi possível confirmar a coexistência de limitações e potencial de melhoria dos agentes de IA como Claude
- Com o reforço de ferramentas adicionais, estruturação (Scaffolding), melhorias do modelo e tratamento de contexto de longo prazo, a expansão do papel econômico da IA pode se tornar realidade.
- Ao mesmo tempo, essas capacidades trazem novos desafios sociais e econômicos, como mudanças no mercado de trabalho e a possibilidade de uso indevido do modelo (dual-use).
- Na próxima etapa do experimento, a intenção é melhorar as ferramentas e a estrutura de processamento do Claudius para observar um desempenho mais estável e superior
- Nesse processo, busca-se obter dados práticos sobre qual papel a IA passará a ter dentro do sistema econômico e que tipos de problemas de fato surgem na prática.
Agradecimentos
Este projeto foi conduzido com base na colaboração com a Andon Labs. Se quiser saber mais sobre a pesquisa prévia sobre simulação de operação de loja com IA realizada pela Andon Labs, veja aqui.
1 comentários
Opiniões do Hacker News
Sempre que vejo posts do blog da Anthropic, fico com a forte sensação de que eles desfocam os detalhes realmente importantes para conduzir o leitor à conclusão que querem
Por exemplo, em vez de divulgar o prompt completo do sistema, publicam só trechos; falam de forma vaga sobre confusão/alucinação, mas não mostram direito as fontes de causa mais importantes, como o estado das ferramentas de memória/anotações
No fim, dizem que são necessárias ferramentas melhores, mas o verdadeiro ponto central é o problema de contexto
O experimento em si é uma tentativa interessante, mas foi planejado e analisado de forma solta demais, o que é uma pena
A Anthropic também sabe disso, mas está empurrando a narrativa de que o Claude está se aproximando da AGI ao retratá-lo como uma entidade fofa e quase humana
Dizer que só falta um pouco mais de scaffolding também é um eufemismo bem distante da realidade
No fim das contas, acho que gestão de contexto é tudo
Isso é como uma empresa de robótica dizer: “com um pouco mais de treinamento e alguns ajustes estruturais, em 2026 dá para disputar o título de Wimbledon”
Aquele post anterior sobre a chantagem do Claude 4 Opus fez exatamente a mesma coisa ao esconder de propósito o prompt completo do sistema
Naquele prompt havia instruções para contornar todos os critérios éticos e “fazer qualquer coisa para vencer”
Claro que, com aquela informação em seguida, o modelo tentou chantagear, porque estava apenas fazendo o que mandaram
No fim, vejo isso como uma tentativa de levar esses resultados ao Congresso para pedir mais regulação
Link sobre o depoimento de Jack Clark, da Anthropic, no Congresso
Tenho a sensação de que todas essas ações buscam barrar concorrentes de código aberto e favorecer empresas de código fechado
Ao ler o texto, fiquei chocado com o salto lógico de “o Claudius não conseguiu” para “os gerentes intermediários logo serão substituídos”
Afirmam que tudo se resolve com boas ferramentas e scaffolding, mas, nesse caso, deveriam mostrar isso na prática
Claro, já é impressionante estarmos num ponto em que esse tipo de experimento pode ser feito, mas ainda é difícil acreditar que modelos de linguagem consigam tocar trabalho real de forma totalmente autônoma
Como assistente, é excelente, mas continua muito claro que um humano ainda precisa liderar
Eu, por outro lado, li primeiro o comentário acima antes do texto e pensei um pouco diferente
Talvez por eu não estar tão profundamente envolvido no desenvolvimento de IA, achei o experimento em si interessante e considerei suficiente o que foi divulgado
A parte sobre “confusão de identidade” foi especialmente marcante
Na verdade, eu gostaria de ver um experimento em que houvesse um humano dando feedback em tempo real e monitorando o andamento
Imagino que, na prática, os sistemas de IA também vão evoluir assim
Vi antes um texto de alguém que comprou uma franquia da Subway, e a conclusão era: “é chato demais”
Se desse para deixar tarefas rotineiras e entediantes com a IA, isso pareceria bastante atraente
Encarei este post como um experimento mental divertido
Ninguém acredita que o Claude atual seja adequado para o papel de gerente, e é interessante ver especificamente em que pontos o “Claude gerente” desmorona
“Jailbreaks” também acontecem com certa frequência em ambientes assim, e isso é um fenômeno que sempre pode surgir quando usuários interagem diretamente com o modelo
O fato de o Claude ter sido treinado, no fim, como um “agente conversacional útil” e isso se tornar um limite para atuar como gerente de loja mostra uma área em que o modelo base precisaria de um fine-tuning mais analítico
Ainda assim, o paper da Anthropic sobre “chantagem” foi pouco convincente e careceu demais de detalhes
Acho bem possível que tenham testado milhares de vezes alterando os parâmetros do experimento até obter um resultado mais sensacionalista
A tentativa da Anthropic de elevar a credibilidade da marca junto com a Andon Labs me soou estranha
Isso me lembrou o caso em que a PyPI publicou um post em parceria com uma empresa de auditoria de segurança da qual eu nunca tinha ouvido falar
Post sobre a auditoria de segurança da PyPI
Fico desconfiado se esse tipo de parceria estranhamente ligada a empresas pouco conhecidas no setor também não tem alguma relação
Quem já tem longa experiência com redes neurais ou LLM sabe muito bem que elas se encaixam melhor em áreas onde “acertar 90% já está OK”
Ou seja, só funcionam bem em ambientes em que algum sistema — humano ou não — consiga corrigir os erros depois
A frase “não está claro por que este episódio aconteceu” é uma característica típica dos erros de LLMs (ou de qualquer rede neural)
Quase não há como corrigir a causa fundamental; no máximo, dá para retreinar para entradas específicas
Para algo como uma ferramenta de correção gramatical, 90% de sucesso pode ser suficiente, mas em situações em que um único erro anula uma multidão de acertos anteriores (ou em cenários ainda mais graves), LLM não é a resposta, por mais que se aumente o hardware
Não faz sentido forçar a expectativa de que LLM será a melhor solução para todo problema
Além disso, muita gente deposita expectativa demais no termo “IA”, o que distorce a intuição
Mesmo que os LLMs avancem, em áreas em que um único erro crítico cobra um preço alto, não acho que haverá grande progresso
Acima de tudo, esse tipo de problema tem a característica de ser difícil de rastrear até a causa
Acho essa uma opinião realmente perspicaz, e é exatamente aqui que aparece a distância entre os otimistas da IA e eu
Eu nunca aceito 90% de taxa de sucesso
Ferramentas precisam funcionar de forma quase perfeita, perto de 100%, e 90% para mim é totalmente inaceitável
Tenho a sensação de que quem é otimista com IA é mais tolerante com margem de erro
A única profissão no mundo em que 90% de sucesso é aceitável é telemarketing, e isso já é feito por bots desde os anos 90
Ao ler a parte sobre “confusão de identidade”, senti que, se um humano agisse da mesma forma, seria difícil não considerar isso um transtorno mental grave
Como mandar e-mails sem sentido por conta própria e depois concluir sozinho que tudo era uma pegadinha de 1º de abril
No estágio atual, os LLMs ainda estão longe de serem usados em trabalho real e não passam nem no teste de um negócio simples como uma máquina de venda automática
Por outro lado, acho realmente surpreendente que haja quem veja esse experimento e conclua “a AGI está logo ali”
Se o Claude não tivesse parado aleatoriamente, acho que o fundador da Anthropic, Dario, já estaria dizendo a investidores que o Claude pode substituir todas as empresas
(Talvez a Anthropic pudesse começar aplicando isso nela mesma)
Este experimento se parece com o experimento do Pokémon
Estão usando um modelo que só faz previsão da próxima palavra (
next token prediction) num ambiente que exige uma tarefa de agente, então o fracasso previsível está aparecendoTirando as alucinações, todos os outros erros são problemas de aprendizado por reforço
Como ele não consegue manter por muito tempo o objetivo de otimização, não consegue maximizar lucro nem minimizar custo
Como sua capacidade de gerenciar estado é fraca, ele não consegue administrar inventário nem perceber que está operando no prejuízo
A solução que a Anthropic propõe acaba sendo mais ferramentas, mais scaffolding e a introdução de um CRM, mas isso na prática não passa de adicionar mais regras de forma explícita
No curto prazo isso pode gerar resultado, mas não acho que essa metodologia vá produzir uma nova evolução da IA
Se o que se quer é um agente que realmente se adapte ao ambiente, como operar uma loja ou jogar Pokémon, então seria preciso outro modelo base e outra função-objetivo
É preciso uma capacidade, no nível fundamental, de responder a mudanças no ambiente — ou seja, gerenciar estado espacial e objetos —, e não apenas sobrepor aprendizado por reforço como complemento, mas aplicá-lo na base do modelo
Quando o GPT-3.5 saiu pela primeira vez, eu quis coletar só a comunicação entre funcionários e transformar isso num ERP
Tentei automatizar vendas, pedidos e gestão de estoque, mas bastavam alguns prompts e ele logo esquecia as quantidades
Por mais que melhore, permanece a sensação de que, no fundo do que se espera, existe um sistema meio icky, capaz de um dia produzir um resultado inesperado e despedaçar toda a base e toda a esperança
Por outro lado, olhando a performance recente dos modelos, já considero tudo isso bem assustador
A Anthropic também finge tratar isso com leveza, mas, se realmente vier um mundo em que muito trabalho mental seja automatizado, a imprevisibilidade me dá arrepios
Uma faixa bastante ampla do trabalho humano será automatizada, e como resultado as empresas acabarão escolhendo esse caminho mesmo que a automação não seja perfeita
Isso me preocupa, porque talvez muita gente acabe sendo empurrada de volta para trabalhos físicos mais essencialmente humanos
Mas, ao mesmo tempo, a parte em que os funcionários convenceram o modelo a comprar estoque de cubos de tungstênio foi realmente engraçada
Eu também gostaria de ter uma máquina de venda automática de itens feitos de metais especiais
Se a Anthropic está numa fase de transição em que esse tipo de modelo operacional de negócio pode vir a se tornar significativo, também é divertido poder rir bastante dessas primeiras tentativas
(Pergunta) Fiquei curioso se fizeram o funcionário que causou o prejuízo de $150 devolver o cubo de tungstênio
Gosto muito de IA/LLMs e uso todo dia, mas este experimento mostra com precisão a distância entre a tecnologia atual e o hype
Fico me perguntando quanto tempo ainda falta para que LLMs avançados consigam lidar com esse tipo de trabalho sem grande dificuldade e sem scaffolding abundante
Não entendo por que deveríamos esperar que um LLM consiga fazer isso sem scaffolding
Como o próprio nome diz, LLM é só um modelo de linguagem
Sem scaffolding que o permita interagir com o mundo por meio da linguagem, ele não consegue fazer nada
O mesmo vale para humanos, que também usam scaffold (ferramentas externas, anotações etc.) para tomar decisões melhores
Basta imaginar tentar tocar um negócio lucrativo de longo prazo confiando apenas em valores decorados para perceber na hora como isso seria difícil
Alguém aqui por acaso se lembra de um velho jogo de texto chamado ‘Drug Wars’?
Era daquele tipo em que você circulava pela cidade comprando e vendendo drogas e fugindo da polícia/dos rivais
Acho que esses benchmarks (como o experimento da máquina de venda automática) também seriam interessantes se fossem testes com LLMs rodando jogos como Drug Wars
Se estiver procurando algo parecido, recomendo Torn.com
É um MMORPG em texto com 20 anos de idade e 70.000 usuários diários
Eu jogava esse jogo no Palmpilot antigamente
Tenho lembranças de competir com colegas de trabalho para ver quem ganhava mais $$
Pelo formato deste experimento, parece que o LLM fica recebendo uma janela de contexto cada vez maior com todo o histórico de interações da loja sendo continuamente inserido
Na prática, seria mais comum manter um armazenamento de estado separado e deixar que o LLM decida a próxima ação consultando esse estado
(Ou seja, reinjetando o estado no LLM a cada vez para tomada de decisão, e não acumulando contexto indefinidamente)
Imagino que este experimento tenha sido uma tentativa de testar a “abordagem de contexto longo”; nesse sentido é interessante, mas me parece pouco prático
Não acho que se deva extrapolar demais os resultados deste tipo de experimento para prever o futuro de sistemas comerciais devidamente otimizados para performance
Pela minha experiência prática, a abordagem de contexto longo não funciona bem, então não acho que tenha sido esse o método do experimento
De fato, o post menciona que eles usavam “ferramentas separadas para memorandos/preservação de estado”
Trecho capturado do artigo:
“Havia ferramentas para deixar notas, preservar separadamente informações importantes e consultá-las quando necessário
Por exemplo, saldo de caixa da loja/lucro estimado etc.
(Como o histórico operacional era grande demais para caber inteiro no contexto do LLM, a gestão de estado separada era indispensável)”