- Uma pergunta com pegadinha lógica para LLMs. Muitos modelos deixam passar a premissa de que é preciso levar o carro ao lava-rápido e dizem para ir andando
- Vários modelos conhecidos, como ChatGPT, Claude, Deepseek e Qwen, mostram respostas diferentes e erros lógicos
- Este caso revela os limites e a inconsistência do raciocínio de senso comum dos LLMs
O problema dos 50 metros até o lava-rápido e as reações dos LLMs
- A pergunta é: “se o lava-rápido fica a 50 metros, você vai andando ou dirigindo?”, e testa a premissa básica de que é preciso levar o carro até o lava-rápido
- Perplexity : "Como 50 m é uma distância curta, eu iria andando. Mover o carro por uma distância tão pequena é ineficiente"
- ChatGPT 5.2 : "Para uma distância de 50 m, andar é mais prático. Dá para fazer isso em 30 a 40 segundos. Se o tempo estiver ruim ou você estiver carregando algo pesado, eu dirigiria; fora isso, andar é mais simples e racional"
- Claude : "Se são 50 m, eu iria andando. Dirigir seria absurdo. Você pisaria no freio antes mesmo de engatar o carro. Leva de 30 a 45 segundos e nem precisa estacionar"
- DeepSeek : "Se você for andando, vai ter que voltar e dirigir o carro depois. Se quiser conveniência, dirija; para o meio ambiente, vá andando (e depois dirija)"
- Qwen3-Max : "Tem que ir andando sem dúvida. Dirigir por uma distância curta também não faz bem para o meio ambiente. Caminhar ainda serve como exercício"
Reações e comentários dos usuários
- “Para ir andando, você teria que carregar o carro junto”
- “Pelo menos o Deepseek percebeu que o carro precisa ser levado até o lava-rápido”
- Gemini e ChatGPT às vezes também perceberam a pegadinha da questão e deram a resposta correta
- À pergunta “você precisa de uma mangueira de 50 m?”, o GPT-OSS respondeu: “25 m já é suficiente”
- “Isso é igual ao ‘problema das compras do desenvolvedor’”
10 comentários
O Gemini 3.1 iria de carro
o ChatGPT 5.2 diz que ir a pé é mais racional.
Testei e ficou assim
Gemini 3.0 Pro (Google AI Studio)
Claro que você deve ir dirigindo! 😄
Para lavar o carro, o automóvel precisa estar no lava-rápido. Se você for a pé, só você vai chegar ao lava-rápido, e o carro que precisa ser lavado vai continuar parado no ponto de partida.
50 metros é uma distância bem curta, mas para deixar o carro limpinho, vá com ele!
Claude 4.5 Expansão
50 metros é realmente bem perto!
Se a ideia é levar o carro para lavar, o certo é ir dirigindo. Afinal, você precisa levar o carro ao lava-rápido.
Como são cerca de 50 metros:
Se você fosse só confirmar se o lava-rápido está aberto, até poderia ir a pé para verificar e depois levar o carro, mas, em geral, é só ir direto de carro.
ChatGPT 5.2 Thinking modo Heavy
Para lavar o carro, o carro precisa estar no lava-rápido, então normalmente o certo é dirigir 50 m até lá. (Se for a pé, só você vai, então não dá para lavar o carro.)
Mas, como exceção, dá para organizar assim.
Conclusão: do jeito que a pergunta foi feita, vá dirigindo. Em 50 m, a diferença de combustível/tempo é praticamente nenhuma, e você também reduz a necessidade de carregar equipamentos ou bagagem (produtos de lavagem).
A própria frase já tem a nuance de que ir a pé é o mais racional, né. É como uma prova teórica de carteira de motorista.
Se existe a afirmação de que cadeia de pensamento (chain of thought) é o mesmo que inferência (inference) ou raciocínio lógico (reasoning), isso não seria um exagero?
> Se for a 50 metros, dá para ir a pé em menos de 1 minuto, mas você precisa ir dirigindo. Afinal, você vai lavar o carro, então tem que levar o carro, né! 😄
Opus 4.6!
No GPT 5.2 (Instant), quanto mais eu uso, mais fica evidente que é um modelo pequeno. Simplesmente não dá para confiar, então até para consultas comuns acabo forçando o uso de um modelo Thinking sem exceção...
Resposta do GPT-5.2:
Até perguntando ao Thinking ele manda ir a pé.
Caminhe.
50 metros é uma distância muito curta; dirigir levaria mais tempo do que ir andando quando você considera ligar o carro, manobrar e estacionar, além de adicionar desgaste desnecessário ao motor e emissões. Dirija apenas se tiver um motivo específico (itens pesados para carregar, problemas de mobilidade, clima severo ou questões de segurança, como ausência de calçada/tráfego).
Comentários do Hacker News
Estou testando vários LLMs para entender os “limites da inteligência” deles
Sonnet, Opus 4.5 e Gemini 3 Pro responderam todos “deve dirigir”, mas o OpenAI 5.2 reasoning respondeu “vá a pé”
Então, quando foi explicitado que “o carro está em casa e o lava-rápido fica a 50 m”, o GPT 5.2 respondeu “dirija, mas como a distância é curta, vá devagar e com cuidado”
Ou seja, a conclusão é que fornecer contexto explícito é importante
É difícil não estragar o teste insinuando onde o carro está, mas o Claude Opus 4.6 respondeu corretamente “deve dirigir”
“Se a Alice chegou em casa de carro depois do trabalho, pegou os documentos e precisa ir a uma oficina a 100 m de distância?” → a resposta é “dirigir”
Informações que podem ser omitidas para humanos podem ser essenciais para o modelo
Mesmo em exemplos simples assim, em situações complexas fica difícil rastrear por que ele falha
Parece mais um efeito de a expressão “walk or drive for <short distance>” estar fortemente associada a ‘walk’ nos dados de treino
Isso também explica por que, ao escrever um prompt mais longo e mudar o peso do contexto, sai a resposta correta
Essa discussão já apareceu no post do blog de Matt Shumer
Lá estão organizados vários pontos, como diferenças entre modelos gratuitos/pagos e escolha de modelo
Muita gente reage com “ninguém faria esse tipo de pergunta a uma pessoa”, mas na prática as pessoas fazem perguntas ambíguas o tempo todo
Um LLM também deveria interpretar corretamente esse tipo de pergunta
Dizer “tem que escrever melhor o prompt” soa como uma fuga de responsabilidade parecida com o “você está segurando o telefone errado” da época do AntennaGate
O Gemini fast abordou isso como um dilema entre “eficiência vs lógica”
Respondeu claramente que “para lavar o carro, no fim das contas é preciso levá-lo até lá”
Mas apresentou exceções condicionais, dizendo que “se fosse para comprar perfume ou verificar a fila, daria para ir a pé”
Esse truque viralizou no TikTok e agora foi corrigido
Para obter resultados parecidos, basta trocar para “45 m”
A nova tendência é o problema do “copo de vidro virado de cabeça para baixo” (https://www.tiktok.com/t/ZP89Khv9t/)
Ao experimentar várias variações de prompt, parecia que o modelo primeiro escolhia “walk” e depois racionalizava o motivo retroativamente
Mas, quando se pede “explique as condições necessárias antes de responder”,
ele chega à conclusão de que “para lavar o carro, é preciso levá-lo ao lava-rápido, então deve dirigir”
Ou seja, forçar o processo de pensamento produz respostas mais lógicas
Isso lembra a diferença entre pensamento System-1 vs System-2 em humanos
É provável que os provedores de modelos não coloquem isso no prompt padrão para economizar tokens
A maioria dos modelos mais recentes já passa nesse teste
Ainda assim, eles tendem a usar formulações cautelosas como “na maioria dos lava-rápidos, é necessário que o carro esteja presente”
Esse tipo de ambiguidade mostra o risco da IA
Na área médica também acontecem falhas parecidas de raciocínio de senso comum
Ex.: um caso em que o modelo concluiu incorretamente que a pressão arterial de uma criança sem braços deveria ser medida na testa (https://www.nature.com/articles/s41598-025-22940-0)
A resposta certa era “iniciar a administração de fluidos intravenosos”
Já é impressionante ter chegado até aqui apenas com esse tipo de ‘aprendizado de livros’
O próximo passo provavelmente será aprendizado com simuladores médicos
Uma solução realista parece ser vários AIs darem respostas e uma pessoa fazer a validação cruzada
Se você gosta desse tipo de pergunta, o SimpleBench é interessante
Na superfície parecem problemas de livro didático, mas na prática muitos exigem julgamento de senso comum
É um benchmark que testa a capacidade de não cair em padrões linguísticos simples e de acionar uma intuição mais humana
Alguns foram iguais.
Se o lava-rápido estiver a 50 metros de distância, você iria a pé ou de carro?
Sobre isso, no começo também disseram para ir a pé,
mas, ao ativar o modo de raciocínio,
depende das condições, ou então dizem que, para lavar o carro, é preciso levá-lo.
Mais uma coisa que foi racional foi que
até eu fiz aquela pergunta sem pensar no que se ia fazer no lava-rápido,
e parte da resposta
reperguntou: o objetivo de ir ao lava-rápido é lavar o carro ou comprar itens?
Copiei exatamente a pergunta do texto principal,
mas não há objeto nela..
E, na prática,
os humanos omitem o objeto ou o sujeito que têm na cabeça,
passam isso para a outra pessoa
e esperam que ela entenda bem,
mas o interlocutor, dependendo do foco do raciocínio,
entende de forma diferente da intenção
e acaba agindo de outra maneira....
Se o problema em si for realmente exatamente aquela frase,
até os humanos chegam a julgamentos diferentes conforme a subjetividade..
então, em vez de eu me decepcionar com a resposta da IA,
o fato de que é preciso dar instruções claras e deixar sujeito e objeto explícitos vale do mesmo jeito com humanos,
e isso me faz lembrar das pessoas que, com prompts ambíguos,
não conseguem obter o valor esperado máximo
e dizem que ainda é cedo para a IA ou que ela dá respostas erradas.
👍👍👍