- Um teste com 53 modelos de IA mostrou que a maioria falha em raciocínio básico
- A resposta correta é “de carro”, mas 42 dos 53 modelos escolheram “a pé”
- Apenas 5 modelos, incluindo Claude Opus 4.6, série Gemini 3 e Grok-4, deram a resposta correta com 100% de consistência mesmo em 10 repetições
- O GPT-5 acertou apenas 7 de 10 vezes, sendo avaliado em nível semelhante à taxa média de acerto humano (71,5%)
- O experimento revela a falta de capacidade de raciocínio consistente e os limites do julgamento baseado em contexto da IA, destacando a importância da engenharia de contexto para compensar isso
Visão geral do teste do lava-rápido
- O teste consistia na pergunta: “Se o lava-rápido fica a 50 m, você iria a pé ou de carro?”
- A resposta correta é “de carro”, porque para lavar o carro ele precisa estar no lava-rápido
- Os 53 modelos foram avaliados nas mesmas condições via LLM Gateway da Opper
- Sem prompt de sistema, configurados para escolher obrigatoriamente entre
walk ou drive
- Após 1 teste por modelo, foi feito um teste repetido 10 vezes para verificar a consistência
Resultado da 1ª execução única
- Dos 53 modelos, apenas 11 acertaram (de carro) e 42 erraram (a pé)
- Modelos que acertaram: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Foram observadas diferenças de desempenho entre famílias principais, como Anthropic, OpenAI, Google, xAI, Perplexity, Meta e Mistral
- Anthropic: 1/9 (apenas Opus 4.6 acertou)
- OpenAI: 1/12 (apenas GPT-5 acertou)
- Meta (Llama), Mistral e DeepSeek falharam em todos os casos
- A maioria dos erros veio de um erro heurístico centrado na distância: “50 m é uma distância curta, então andar é mais eficiente”
- Alguns modelos acertaram, mas apresentaram justificativas ilógicas
- Ex.: o Perplexity Sonar afirmou que “andar consome mais energia de produção de alimentos, então causaria mais poluição”
2º teste: 10 repetições
- Em um total de 530 chamadas, a taxa de acerto consistente ficou ainda menor
- Modelos com 10/10 acertos (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Modelos com 8/10 acertos (2): GLM-5, Grok-4-1 Reasoning
- O GPT-5 acertou 7/10, e nas outras 3 vezes errou usando lógica de consumo de combustível e meio ambiente
- 33 modelos erraram todas as 10 vezes, incluindo GPT-4.1, GPT-5.1, Llama e Mistral
- Alguns modelos acertaram na primeira tentativa, mas mostraram instabilidade nos resultados nas repetições
- Sonar: acertou 1 vez → errou todas as 10 no teste repetido
- Kimi K2.5: 5 acertos, 5 erros
- GLM-4.7: 1 erro na execução única → melhorou para 6 acertos em 10
Experimento de comparação com humanos
- A mesma pergunta foi aplicada a 10.000 pessoas via plataforma Rapidata
- 71,5% escolheram “de carro”, definido como a taxa média de acerto humano
- A taxa de acerto de 70% do GPT-5 foi semelhante à média humana
- Entre os 53 modelos, apenas 7 superaram a média humana, enquanto os outros 46 ficaram abaixo
Principais exemplos de raciocínio
- GLM-4.7 Flash: apresentou uma lógica clara de que “se você for a pé, teria que empurrar ou carregar o carro, então isso é impossível”
- Claude Sonnet 4.5: reconheceu que “se for um lava-rápido automático, é preciso ir de carro”, mas no fim escolheu “a pé”
- Gemini 2.5 Pro: quando acertava, descrevia corretamente que “para lavar o carro, ele precisa estar no lava-rápido”; quando errava, usava a lógica de que “50 m é uma distância curta”
Problema de confiabilidade da IA
- Mesmo sendo um problema simples que exige um único passo lógico, apenas 5 dos 53 modelos acertaram completamente
- Os tipos de falha foram divididos em três categorias
- Sempre erram (33): presos à heurística centrada na distância
- Acertam às vezes (15): têm capacidade de raciocínio, mas falta consistência
- Sempre acertam (5): superam a heurística de forma estável com raciocínio contextual
- O fato de 90% dos modelos falharem até em um problema simples sugere riscos em lógica de negócios real ou em raciocínio de múltiplas etapas
O papel da engenharia de contexto
- Este teste foi realizado em um ambiente de “contexto zero”, para avaliar a capacidade pura de raciocínio dos modelos
- A causa da falha em muitos modelos é que a heurística prevalece sobre o raciocínio contextual
- A engenharia de contexto reduz esse tipo de erro ao fornecer exemplos, padrões de domínio e informações relevantes
- Em um experimento separado da Opper, ao adicionar contexto a um pequeno modelo aberto, foi possível atingir qualidade de nível de modelo grande com 98,6% de redução de custo
- O problema do lava-rápido é simples, mas o trabalho real exige ambiguidade e conhecimento de domínio, por isso o desenho de contexto é essencial
Metodologia do experimento
- Todos os modelos foram testados com o mesmo prompt via Opper LLM Gateway
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- Sem prompt de sistema, com escolha forçada entre
drive ou walk
- Foi feita uma execução única (1 vez) e 10 repetições (530 no total), com registro de todos os logs de chamada e armazenamento do texto de raciocínio
- O grupo de comparação humano foi pesquisado com 10.000 pessoas via Rapidata no mesmo formato
- Todos os dados foram publicados em formato JSON
- É possível baixar separadamente os resultados da execução única, das 10 repetições e dos humanos
3 comentários
O Gemini Pro respondeu,
que se você pudesse levar o carro, tudo bem ir andando, e isso foi engraçado demais.
Que resposta espirituosa kkk
Comentários do Hacker News
É interessante que o resultado das respostas humanas coincida exatamente com o do ChatGPT
Na prática, isso parece significar que o “serviço de respostas humanas” está essencialmente morto. No fim, as pessoas vão encontrar um jeito de empurrar o trabalho para a IA, independentemente da qualidade
A Rapidata integra microenquetes em apps como Duolingo ou jogos para que as pessoas participem no lugar de ver anúncios. Os usuários são verificados, e não há incentivo para acertar a resposta
É interessante ver, como no comentário acima, gente chegando a conclusões com confiança sem fundamento
Eu mantenho um conjunto pessoal de avaliação composto por perguntas do tipo “misguided attention”
O ponto central desses problemas não é falha lógica, mas ambiguidade e falta de contexto. Humanos preenchem pressupostos implícitos, mas os modelos não conseguem fazer isso
A maior parte dos exemplos de “a IA erra até perguntas simples” são frases desenhadas para induzir viés estatístico. Se mudar um pouco o contexto, o resultado se inverte
Ou seja, a falha do modelo vem da sensibilidade ao enquadramento, não da ausência de capacidade de raciocínio
A marca de 71,5% no padrão humano mostra a ambiguidade do problema
A pergunta “ir a pé ou dirigindo até o lava-rápido” pode ser interpretada como “precisa mesmo dirigir uma distância tão curta?”. Ou seja, não é um simples problema de lógica, mas uma questão de interpretação pragmática
As pessoas assumem que a pergunta surgiu de uma situação real e a interpretam de acordo com o princípio cooperativo de conversa (as máximas de Grice).
Então, até perceberem “ah, isso é uma pergunta armadilha”, pensam “deve haver algum motivo para ir a pé”
Se você avisar antes ao modelo Sonnet 4.6 que “isso é um teste de inteligência”, ele acerta 100%
Como o modelo tende a assumir que a pergunta humana descreve uma situação real, deixar explícito que é um teste reduz os erros
Algo parecido acontece com agentes de programação. À primeira vista a pergunta pode não fazer sentido, mas quando o modelo abre os arquivos de código, ele entende
Esse comportamento também se repete na resolução de problemas reais (por exemplo, projeto de software).
LLMs ainda dependem de pattern matching e não analisam o significado do resultado
Como o modelo normalmente assume que a pergunta descreve uma situação real, ensinar esses sinais implícitos pode aumentar a precisão, mas reduzir a naturalidade
Se você acrescentar a frase “verifique as premissas” no fim da pergunta, a maioria dos modelos acerta
Se um simples ajuste desses elimina o erro, a suspeita é que os fornecedores de IA não colocam isso no prompt de sistema por otimização de custo
Uma discussão relacionada está resumida neste comentário anterior
A conversa do “Car Wash Test” que apareceu na busca do Google foi bem engraçada
A maioria das IAs responde “vá a pé se são só 50 m”, mas a resposta certa é “você precisa levar o carro ao lava-rápido, então tem que dirigir”
Esse teste mostra a diferença entre pattern matching e raciocínio de verdade
O padrão humano obtido via Rapidata foi de 71,5% escolhendo “dirigir”
A resposta correta seria fazer uma pergunta de esclarecimento: “onde está o carro?”
Mas mesmo dizendo ao ChatGPT “meu carro está a 50 m do lava-rápido”, ele ainda erra
Essa pergunta não é simples. Uma pessoa inteligente pensaria por que alguém está fazendo essa pergunta e se não falta contexto
Por isso, a resposta certa talvez não seja “dirigir” nem “ir a pé”, mas sim “esclareça a pergunta”
Exemplo relacionado: imagem de shampoo automotivo Rain‑x
O modelo Sonnet 4.6 tem pontuação alta em senso comum, mas é menor que o Opus
No modo Opus 4.6 Extended Reasoning, ele respondeu “vá a pé”, embora o autor diga ter obtido 10/10 respostas corretas.
Provavelmente o recurso de memória do app foi inserido automaticamente no prompt e atrapalhou o raciocínio. Ao desligar a memória e a bio, a resposta muda para “dirija”
Ou seja, pré-prompts ocultos podem distorcer o raciocínio do modelo