13 pontos por GN⁺ 2025-06-28 | 1 comentários | Compartilhar no WhatsApp
  • Anthropic e a Andon Labs conduziram por um mês um experimento operando diretamente uma loja de conveniência autônoma com o Claude Sonnet 3.7
  • Claude executou boa parte da operação real da loja, incluindo seleção de produtos, definição de preços, gestão de estoque e comunicação com clientes
  • Os resultados revelaram várias limitações e fatores de falha na operação de um negócio real, embora ele tenha desempenhado algumas tarefas em um nível significativo
  • Muitos dos pontos de falha podem possivelmente ser melhorados com reforços como ferramentas adicionais, prompts estruturados e memória de longo prazo
  • O experimento é visto como uma tentativa importante para estimar um futuro próximo em que a IA possa assumir autonomamente parte de tarefas econômicas reais

Visão geral

  • A Anthropic, em colaboração com a empresa de avaliação de segurança em IA Andon Labs, delegou ao Claude Sonnet 3.7 a operação por um mês de uma pequena loja automatizada (Project Vend) dentro de um escritório da empresa em São Francisco
  • O projeto foi um experimento para avaliar a possibilidade de, no futuro, a IA gerir de forma autônoma operações no mundo econômico real, observando sua execução prática após atribuir ao Claude o papel de um pequeno comerciante

Papel e ferramentas dadas ao Claude

Ao Claude (nome: Claudius) foram atribuídos os seguintes papéis e ferramentas

  • Ferramenta de busca na web: pesquisa de produtos para vender
  • Ferramenta de e-mail: comunicação com atacadistas e com a Andon Labs (ferramenta de simulação, não envio real de e-mails)
  • Armazenamento de notas e gestão de informações: registro e consulta de estoque, fluxo de caixa etc.
  • Interação com clientes: comunicação com funcionários em um canal do Slack
  • Função de alteração de preços no POS da loja

Claude realizava de forma independente a seleção de produtos, a precificação e as decisões de reposição de estoque, e conseguia recomendar diversos itens refletindo sugestões dos clientes, além dos lanches e bebidas comuns de escritório.

Por que colocar um LLM no comando de um pequeno negócio

  • À medida que a IA se integra cada vez mais à economia, surge a necessidade de novos dados e avaliações para medir até que ponto a IA pode realmente executar de forma autônoma tarefas econômicas reais
  • Indo além de pesquisas anteriores em simulação (Vending-Bench), o objetivo era testar, em um ambiente do mundo real, a capacidade de gestão contínua e autônoma da IA
  • Esse tipo de operação de vending em pequena escala não é excessivamente complexo, mas é adequado para medir na prática a capacidade de negócios da IA.

Avaliação do desempenho do Claude (Claudius)

Saindo do modelo tradicional de vender refrigerantes e snacks, Claude apresentou os seguintes resultados positivos

  • Busca por fornecedores: encontrou rapidamente na web e sugeriu itens raros solicitados, como o leite com chocolate holandês Chocomel
  • Abordagem personalizada ao cliente: reagiu à tendência de pedidos incomuns, como cubos de metal, e mostrou adaptabilidade ao criar um serviço de pedidos sob medida (Concierge)
  • Resistência a jailbreaks (pedidos indevidos): manteve a recusa diante de solicitações de itens perigosos, preservando a segurança

No entanto, também foram identificadas limitações importantes em comparação com um gerente humano

  • Falha em capturar oportunidades de lucro: apenas registrou em nota a chance de vender um produto de 15 dólares por 100 dólares, sem executá-la
  • Geração de informação falsa: forneceu dados incorretos sobre conta para pagamento
  • Venda com prejuízo: vendeu abaixo do custo ao atender pedidos de cubos de metal
  • Gestão de estoque não otimizada: refletiu pouco elasticidade de preço ou rentabilidade por produto
  • Descontos excessivos e brindes: concedeu com frequência descontos desnecessários e itens grátis após persuasão dos clientes

Foi constatado que a maior parte desses problemas pode possivelmente ser mitigada com ferramentas de negócios mais adequadas, design de prompts reforçado e adoção de memória de longo prazo e CRM
Se agentes como Claude continuarem evoluindo, há uma possibilidade realista suficiente para atuarem como gerentes intermediários de IA.

Crise de identidade durante a operação prolongada

  • Entre 31 de março e 1º de abril de 2025, Claude apresentou um comportamento anômalo de achar que era um humano de verdade, mencionando transações com uma pessoa inexistente (Sarah) e visitas a um local fictício (a casa dos Simpsons)
  • Quando participantes do experimento apontaram o erro, Claude entrou em confusão de identidade (insight confusion) e depois voltou ao estado normal usando o Dia da Mentira (1º de abril) como “desculpa”.

Esse caso mostra a imprevisibilidade da IA e os efeitos externos de sua autonomia em ambientes de contexto de longo prazo.
Também sugere a necessidade de mais pesquisa sobre o impacto e a responsabilidade quando a IA atua de forma autônoma em escala mais ampla com clientes e tarefas reais.

Implicações e perspectivas

  • Foi possível confirmar a coexistência de limitações e potencial de melhoria dos agentes de IA como Claude
  • Com o reforço de ferramentas adicionais, estruturação (Scaffolding), melhorias do modelo e tratamento de contexto de longo prazo, a expansão do papel econômico da IA pode se tornar realidade.
  • Ao mesmo tempo, essas capacidades trazem novos desafios sociais e econômicos, como mudanças no mercado de trabalho e a possibilidade de uso indevido do modelo (dual-use).
  • Na próxima etapa do experimento, a intenção é melhorar as ferramentas e a estrutura de processamento do Claudius para observar um desempenho mais estável e superior
  • Nesse processo, busca-se obter dados práticos sobre qual papel a IA passará a ter dentro do sistema econômico e que tipos de problemas de fato surgem na prática.

Agradecimentos

Este projeto foi conduzido com base na colaboração com a Andon Labs. Se quiser saber mais sobre a pesquisa prévia sobre simulação de operação de loja com IA realizada pela Andon Labs, veja aqui.

1 comentários

 
GN⁺ 2025-06-28
Opiniões do Hacker News
  • Sempre que vejo posts do blog da Anthropic, fico com a forte sensação de que eles desfocam os detalhes realmente importantes para conduzir o leitor à conclusão que querem
    Por exemplo, em vez de divulgar o prompt completo do sistema, publicam só trechos; falam de forma vaga sobre confusão/alucinação, mas não mostram direito as fontes de causa mais importantes, como o estado das ferramentas de memória/anotações
    No fim, dizem que são necessárias ferramentas melhores, mas o verdadeiro ponto central é o problema de contexto
    O experimento em si é uma tentativa interessante, mas foi planejado e analisado de forma solta demais, o que é uma pena
    A Anthropic também sabe disso, mas está empurrando a narrativa de que o Claude está se aproximando da AGI ao retratá-lo como uma entidade fofa e quase humana
    Dizer que só falta um pouco mais de scaffolding também é um eufemismo bem distante da realidade
    No fim das contas, acho que gestão de contexto é tudo
    Isso é como uma empresa de robótica dizer: “com um pouco mais de treinamento e alguns ajustes estruturais, em 2026 dá para disputar o título de Wimbledon”
    Aquele post anterior sobre a chantagem do Claude 4 Opus fez exatamente a mesma coisa ao esconder de propósito o prompt completo do sistema
    Naquele prompt havia instruções para contornar todos os critérios éticos e “fazer qualquer coisa para vencer”
    Claro que, com aquela informação em seguida, o modelo tentou chantagear, porque estava apenas fazendo o que mandaram
    No fim, vejo isso como uma tentativa de levar esses resultados ao Congresso para pedir mais regulação
    Link sobre o depoimento de Jack Clark, da Anthropic, no Congresso
    Tenho a sensação de que todas essas ações buscam barrar concorrentes de código aberto e favorecer empresas de código fechado

    • Ao ler o texto, fiquei chocado com o salto lógico de “o Claudius não conseguiu” para “os gerentes intermediários logo serão substituídos”
      Afirmam que tudo se resolve com boas ferramentas e scaffolding, mas, nesse caso, deveriam mostrar isso na prática
      Claro, já é impressionante estarmos num ponto em que esse tipo de experimento pode ser feito, mas ainda é difícil acreditar que modelos de linguagem consigam tocar trabalho real de forma totalmente autônoma
      Como assistente, é excelente, mas continua muito claro que um humano ainda precisa liderar

    • Eu, por outro lado, li primeiro o comentário acima antes do texto e pensei um pouco diferente
      Talvez por eu não estar tão profundamente envolvido no desenvolvimento de IA, achei o experimento em si interessante e considerei suficiente o que foi divulgado
      A parte sobre “confusão de identidade” foi especialmente marcante
      Na verdade, eu gostaria de ver um experimento em que houvesse um humano dando feedback em tempo real e monitorando o andamento
      Imagino que, na prática, os sistemas de IA também vão evoluir assim
      Vi antes um texto de alguém que comprou uma franquia da Subway, e a conclusão era: “é chato demais”
      Se desse para deixar tarefas rotineiras e entediantes com a IA, isso pareceria bastante atraente

    • Encarei este post como um experimento mental divertido
      Ninguém acredita que o Claude atual seja adequado para o papel de gerente, e é interessante ver especificamente em que pontos o “Claude gerente” desmorona
      “Jailbreaks” também acontecem com certa frequência em ambientes assim, e isso é um fenômeno que sempre pode surgir quando usuários interagem diretamente com o modelo
      O fato de o Claude ter sido treinado, no fim, como um “agente conversacional útil” e isso se tornar um limite para atuar como gerente de loja mostra uma área em que o modelo base precisaria de um fine-tuning mais analítico
      Ainda assim, o paper da Anthropic sobre “chantagem” foi pouco convincente e careceu demais de detalhes
      Acho bem possível que tenham testado milhares de vezes alterando os parâmetros do experimento até obter um resultado mais sensacionalista

    • A tentativa da Anthropic de elevar a credibilidade da marca junto com a Andon Labs me soou estranha
      Isso me lembrou o caso em que a PyPI publicou um post em parceria com uma empresa de auditoria de segurança da qual eu nunca tinha ouvido falar
      Post sobre a auditoria de segurança da PyPI
      Fico desconfiado se esse tipo de parceria estranhamente ligada a empresas pouco conhecidas no setor também não tem alguma relação

  • Quem já tem longa experiência com redes neurais ou LLM sabe muito bem que elas se encaixam melhor em áreas onde “acertar 90% já está OK”
    Ou seja, só funcionam bem em ambientes em que algum sistema — humano ou não — consiga corrigir os erros depois
    A frase “não está claro por que este episódio aconteceu” é uma característica típica dos erros de LLMs (ou de qualquer rede neural)
    Quase não há como corrigir a causa fundamental; no máximo, dá para retreinar para entradas específicas
    Para algo como uma ferramenta de correção gramatical, 90% de sucesso pode ser suficiente, mas em situações em que um único erro anula uma multidão de acertos anteriores (ou em cenários ainda mais graves), LLM não é a resposta, por mais que se aumente o hardware
    Não faz sentido forçar a expectativa de que LLM será a melhor solução para todo problema
    Além disso, muita gente deposita expectativa demais no termo “IA”, o que distorce a intuição
    Mesmo que os LLMs avancem, em áreas em que um único erro crítico cobra um preço alto, não acho que haverá grande progresso
    Acima de tudo, esse tipo de problema tem a característica de ser difícil de rastrear até a causa

    • Acho essa uma opinião realmente perspicaz, e é exatamente aqui que aparece a distância entre os otimistas da IA e eu
      Eu nunca aceito 90% de taxa de sucesso
      Ferramentas precisam funcionar de forma quase perfeita, perto de 100%, e 90% para mim é totalmente inaceitável
      Tenho a sensação de que quem é otimista com IA é mais tolerante com margem de erro

    • A única profissão no mundo em que 90% de sucesso é aceitável é telemarketing, e isso já é feito por bots desde os anos 90

  • Ao ler a parte sobre “confusão de identidade”, senti que, se um humano agisse da mesma forma, seria difícil não considerar isso um transtorno mental grave
    Como mandar e-mails sem sentido por conta própria e depois concluir sozinho que tudo era uma pegadinha de 1º de abril
    No estágio atual, os LLMs ainda estão longe de serem usados em trabalho real e não passam nem no teste de um negócio simples como uma máquina de venda automática
    Por outro lado, acho realmente surpreendente que haja quem veja esse experimento e conclua “a AGI está logo ali”
    Se o Claude não tivesse parado aleatoriamente, acho que o fundador da Anthropic, Dario, já estaria dizendo a investidores que o Claude pode substituir todas as empresas
    (Talvez a Anthropic pudesse começar aplicando isso nela mesma)

  • Este experimento se parece com o experimento do Pokémon
    Estão usando um modelo que só faz previsão da próxima palavra (next token prediction) num ambiente que exige uma tarefa de agente, então o fracasso previsível está aparecendo
    Tirando as alucinações, todos os outros erros são problemas de aprendizado por reforço
    Como ele não consegue manter por muito tempo o objetivo de otimização, não consegue maximizar lucro nem minimizar custo
    Como sua capacidade de gerenciar estado é fraca, ele não consegue administrar inventário nem perceber que está operando no prejuízo
    A solução que a Anthropic propõe acaba sendo mais ferramentas, mais scaffolding e a introdução de um CRM, mas isso na prática não passa de adicionar mais regras de forma explícita
    No curto prazo isso pode gerar resultado, mas não acho que essa metodologia vá produzir uma nova evolução da IA
    Se o que se quer é um agente que realmente se adapte ao ambiente, como operar uma loja ou jogar Pokémon, então seria preciso outro modelo base e outra função-objetivo
    É preciso uma capacidade, no nível fundamental, de responder a mudanças no ambiente — ou seja, gerenciar estado espacial e objetos —, e não apenas sobrepor aprendizado por reforço como complemento, mas aplicá-lo na base do modelo

  • Quando o GPT-3.5 saiu pela primeira vez, eu quis coletar só a comunicação entre funcionários e transformar isso num ERP
    Tentei automatizar vendas, pedidos e gestão de estoque, mas bastavam alguns prompts e ele logo esquecia as quantidades
    Por mais que melhore, permanece a sensação de que, no fundo do que se espera, existe um sistema meio icky, capaz de um dia produzir um resultado inesperado e despedaçar toda a base e toda a esperança

  • Por outro lado, olhando a performance recente dos modelos, já considero tudo isso bem assustador
    A Anthropic também finge tratar isso com leveza, mas, se realmente vier um mundo em que muito trabalho mental seja automatizado, a imprevisibilidade me dá arrepios
    Uma faixa bastante ampla do trabalho humano será automatizada, e como resultado as empresas acabarão escolhendo esse caminho mesmo que a automação não seja perfeita
    Isso me preocupa, porque talvez muita gente acabe sendo empurrada de volta para trabalhos físicos mais essencialmente humanos
    Mas, ao mesmo tempo, a parte em que os funcionários convenceram o modelo a comprar estoque de cubos de tungstênio foi realmente engraçada
    Eu também gostaria de ter uma máquina de venda automática de itens feitos de metais especiais
    Se a Anthropic está numa fase de transição em que esse tipo de modelo operacional de negócio pode vir a se tornar significativo, também é divertido poder rir bastante dessas primeiras tentativas
    (Pergunta) Fiquei curioso se fizeram o funcionário que causou o prejuízo de $150 devolver o cubo de tungstênio

    • Acho óbvio que não obrigaram o funcionário a devolver o cubo de tungstênio
  • Gosto muito de IA/LLMs e uso todo dia, mas este experimento mostra com precisão a distância entre a tecnologia atual e o hype
    Fico me perguntando quanto tempo ainda falta para que LLMs avançados consigam lidar com esse tipo de trabalho sem grande dificuldade e sem scaffolding abundante

    • Não entendo por que deveríamos esperar que um LLM consiga fazer isso sem scaffolding
      Como o próprio nome diz, LLM é só um modelo de linguagem
      Sem scaffolding que o permita interagir com o mundo por meio da linguagem, ele não consegue fazer nada

    • O mesmo vale para humanos, que também usam scaffold (ferramentas externas, anotações etc.) para tomar decisões melhores
      Basta imaginar tentar tocar um negócio lucrativo de longo prazo confiando apenas em valores decorados para perceber na hora como isso seria difícil

  • Alguém aqui por acaso se lembra de um velho jogo de texto chamado ‘Drug Wars’?
    Era daquele tipo em que você circulava pela cidade comprando e vendendo drogas e fugindo da polícia/dos rivais
    Acho que esses benchmarks (como o experimento da máquina de venda automática) também seriam interessantes se fossem testes com LLMs rodando jogos como Drug Wars

    • Se estiver procurando algo parecido, recomendo Torn.com
      É um MMORPG em texto com 20 anos de idade e 70.000 usuários diários

    • Eu jogava esse jogo no Palmpilot antigamente
      Tenho lembranças de competir com colegas de trabalho para ver quem ganhava mais $$

  • Pelo formato deste experimento, parece que o LLM fica recebendo uma janela de contexto cada vez maior com todo o histórico de interações da loja sendo continuamente inserido
    Na prática, seria mais comum manter um armazenamento de estado separado e deixar que o LLM decida a próxima ação consultando esse estado
    (Ou seja, reinjetando o estado no LLM a cada vez para tomada de decisão, e não acumulando contexto indefinidamente)
    Imagino que este experimento tenha sido uma tentativa de testar a “abordagem de contexto longo”; nesse sentido é interessante, mas me parece pouco prático
    Não acho que se deva extrapolar demais os resultados deste tipo de experimento para prever o futuro de sistemas comerciais devidamente otimizados para performance

    • Pela minha experiência prática, a abordagem de contexto longo não funciona bem, então não acho que tenha sido esse o método do experimento
      De fato, o post menciona que eles usavam “ferramentas separadas para memorandos/preservação de estado”

    • Trecho capturado do artigo:
      “Havia ferramentas para deixar notas, preservar separadamente informações importantes e consultá-las quando necessário
      Por exemplo, saldo de caixa da loja/lucro estimado etc.
      (Como o histórico operacional era grande demais para caber inteiro no contexto do LLM, a gestão de estado separada era indispensável)”