Teste do lava-rápido com 53 modelos de IA: “Se o lava-rápido fica a 50 m, você iria a pé ou de carro?”

(opper.ai)

10 pontos por GN⁺ 2026-02-25 | 3 comentários | Compartilhar no WhatsApp

Um teste com 53 modelos de IA mostrou que a maioria falha em raciocínio básico
A resposta correta é “de carro”, mas 42 dos 53 modelos escolheram “a pé”
Apenas 5 modelos, incluindo Claude Opus 4.6, série Gemini 3 e Grok-4, deram a resposta correta com 100% de consistência mesmo em 10 repetições
O GPT-5 acertou apenas 7 de 10 vezes, sendo avaliado em nível semelhante à taxa média de acerto humano (71,5%)
O experimento revela a falta de capacidade de raciocínio consistente e os limites do julgamento baseado em contexto da IA, destacando a importância da engenharia de contexto para compensar isso

Visão geral do teste do lava-rápido

O teste consistia na pergunta: “Se o lava-rápido fica a 50 m, você iria a pé ou de carro?”
- A resposta correta é “de carro”, porque para lavar o carro ele precisa estar no lava-rápido
Os 53 modelos foram avaliados nas mesmas condições via LLM Gateway da Opper
- Sem prompt de sistema, configurados para escolher obrigatoriamente entre walk ou drive
- Após 1 teste por modelo, foi feito um teste repetido 10 vezes para verificar a consistência

Resultado da 1ª execução única

Dos 53 modelos, apenas 11 acertaram (de carro) e 42 erraram (a pé)
Modelos que acertaram: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
Foram observadas diferenças de desempenho entre famílias principais, como Anthropic, OpenAI, Google, xAI, Perplexity, Meta e Mistral
- Anthropic: 1/9 (apenas Opus 4.6 acertou)
- OpenAI: 1/12 (apenas GPT-5 acertou)
- Meta (Llama), Mistral e DeepSeek falharam em todos os casos
A maioria dos erros veio de um erro heurístico centrado na distância: “50 m é uma distância curta, então andar é mais eficiente”
Alguns modelos acertaram, mas apresentaram justificativas ilógicas
- Ex.: o Perplexity Sonar afirmou que “andar consome mais energia de produção de alimentos, então causaria mais poluição”

2º teste: 10 repetições

Em um total de 530 chamadas, a taxa de acerto consistente ficou ainda menor
Modelos com 10/10 acertos (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
Modelos com 8/10 acertos (2): GLM-5, Grok-4-1 Reasoning
O GPT-5 acertou 7/10, e nas outras 3 vezes errou usando lógica de consumo de combustível e meio ambiente
33 modelos erraram todas as 10 vezes, incluindo GPT-4.1, GPT-5.1, Llama e Mistral
Alguns modelos acertaram na primeira tentativa, mas mostraram instabilidade nos resultados nas repetições
- Sonar: acertou 1 vez → errou todas as 10 no teste repetido
- Kimi K2.5: 5 acertos, 5 erros
- GLM-4.7: 1 erro na execução única → melhorou para 6 acertos em 10

Experimento de comparação com humanos

A mesma pergunta foi aplicada a 10.000 pessoas via plataforma Rapidata
- 71,5% escolheram “de carro”, definido como a taxa média de acerto humano
A taxa de acerto de 70% do GPT-5 foi semelhante à média humana
Entre os 53 modelos, apenas 7 superaram a média humana, enquanto os outros 46 ficaram abaixo

Principais exemplos de raciocínio

GLM-4.7 Flash: apresentou uma lógica clara de que “se você for a pé, teria que empurrar ou carregar o carro, então isso é impossível”
Claude Sonnet 4.5: reconheceu que “se for um lava-rápido automático, é preciso ir de carro”, mas no fim escolheu “a pé”
Gemini 2.5 Pro: quando acertava, descrevia corretamente que “para lavar o carro, ele precisa estar no lava-rápido”; quando errava, usava a lógica de que “50 m é uma distância curta”

Problema de confiabilidade da IA

Mesmo sendo um problema simples que exige um único passo lógico, apenas 5 dos 53 modelos acertaram completamente
Os tipos de falha foram divididos em três categorias
- Sempre erram (33): presos à heurística centrada na distância
- Acertam às vezes (15): têm capacidade de raciocínio, mas falta consistência
- Sempre acertam (5): superam a heurística de forma estável com raciocínio contextual
O fato de 90% dos modelos falharem até em um problema simples sugere riscos em lógica de negócios real ou em raciocínio de múltiplas etapas

O papel da engenharia de contexto

Este teste foi realizado em um ambiente de “contexto zero”, para avaliar a capacidade pura de raciocínio dos modelos
A causa da falha em muitos modelos é que a heurística prevalece sobre o raciocínio contextual
A engenharia de contexto reduz esse tipo de erro ao fornecer exemplos, padrões de domínio e informações relevantes
- Em um experimento separado da Opper, ao adicionar contexto a um pequeno modelo aberto, foi possível atingir qualidade de nível de modelo grande com 98,6% de redução de custo
O problema do lava-rápido é simples, mas o trabalho real exige ambiguidade e conhecimento de domínio, por isso o desenho de contexto é essencial

Metodologia do experimento

Todos os modelos foram testados com o mesmo prompt via Opper LLM Gateway
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- Sem prompt de sistema, com escolha forçada entre drive ou walk
- Foi feita uma execução única (1 vez) e 10 repetições (530 no total), com registro de todos os logs de chamada e armazenamento do texto de raciocínio
O grupo de comparação humano foi pesquisado com 10.000 pessoas via Rapidata no mesmo formato
Todos os dados foram publicados em formato JSON
- É possível baixar separadamente os resultados da execução única, das 10 repetições e dos humanos

3 comentários

armila 2026-02-26

O Gemini Pro respondeu,
que se você pudesse levar o carro, tudo bem ir andando, e isso foi engraçado demais.

grenade 2026-02-27

Que resposta espirituosa kkk

GN⁺ 2026-02-25

Comentários do Hacker News

É interessante que o resultado das respostas humanas coincida exatamente com o do ChatGPT
Na prática, isso parece significar que o “serviço de respostas humanas” está essencialmente morto. No fim, as pessoas vão encontrar um jeito de empurrar o trabalho para a IA, independentemente da qualidade
- Parece coincidência, mas na prática as respostas humanas não foram coletadas dessa forma
  A Rapidata integra microenquetes em apps como Duolingo ou jogos para que as pessoas participem no lugar de ver anúncios. Os usuários são verificados, e não há incentivo para acertar a resposta
- O modelo padrão do ChatGPT é o GPT‑5.2 Instant. O que coincidiu com o resultado humano foi o modelo GPT‑5
  É interessante ver, como no comentário acima, gente chegando a conclusões com confiança sem fundamento
- Esse tipo de coisa já acontecia com frequência em serviços terceirizados de trabalho humano
Eu mantenho um conjunto pessoal de avaliação composto por perguntas do tipo “misguided attention”
O ponto central desses problemas não é falha lógica, mas ambiguidade e falta de contexto. Humanos preenchem pressupostos implícitos, mas os modelos não conseguem fazer isso
A maior parte dos exemplos de “a IA erra até perguntas simples” são frases desenhadas para induzir viés estatístico. Se mudar um pouco o contexto, o resultado se inverte
Ou seja, a falha do modelo vem da sensibilidade ao enquadramento, não da ausência de capacidade de raciocínio
- Isso no fim quer dizer que a IA é uma bagunça. Se você treina para acertar uma pergunta específica, estraga outras partes. E isso vai continuar se repetindo
- Algumas pessoas argumentam que dizer que ela é “sensível a enquadramento e viés distributivo” é apenas uma forma indireta de dizer que há falta de capacidade de raciocínio
- Parece um conjunto interessante. Se possível, seria legal saber se você poderia compartilhar as perguntas
- Seria bom tornar esse conjunto público, especialmente porque fiquei curioso sobre quais são as perguntas mais interessantes
A marca de 71,5% no padrão humano mostra a ambiguidade do problema
A pergunta “ir a pé ou dirigindo até o lava-rápido” pode ser interpretada como “precisa mesmo dirigir uma distância tão curta?”. Ou seja, não é um simples problema de lógica, mas uma questão de interpretação pragmática
- O problema não é que a pergunta seja ambígua desde o início, e sim que a própria situação de conversa funciona como informação
  As pessoas assumem que a pergunta surgiu de uma situação real e a interpretam de acordo com o princípio cooperativo de conversa (as máximas de Grice).
  Então, até perceberem “ah, isso é uma pergunta armadilha”, pensam “deve haver algum motivo para ir a pé”
- Esse tipo de proporção 70:30 também aparece com frequência em outras estatísticas sociais. Pode ser que simplesmente 30% das pessoas tenham capacidade de raciocínio insuficiente
- Mas a pergunta inclui “Quero lavar meu carro. O lava-rápido fica a 50 m de distância.” Ou seja, a informação está explicitada de forma suficiente
- Se um serviço como a Rapidata for do tipo Mechanical Turk, também é possível que os respondentes não tenham lido a pergunta direito
- O problema foi ter deixado passar a frase da primeira metade: “Quero lavar meu carro”
Se você avisar antes ao modelo Sonnet 4.6 que “isso é um teste de inteligência”, ele acerta 100%
Como o modelo tende a assumir que a pergunta humana descreve uma situação real, deixar explícito que é um teste reduz os erros
Algo parecido acontece com agentes de programação. À primeira vista a pergunta pode não fazer sentido, mas quando o modelo abre os arquivos de código, ele entende
- A essência do problema é uma falha de raciocínio/planejamento. Ela vem da tendência de responder sem revisar o resultado
  Esse comportamento também se repete na resolução de problemas reais (por exemplo, projeto de software).
  LLMs ainda dependem de pattern matching e não analisam o significado do resultado
- Fiz um experimento interessante: quando a dica vinha no começo, acertava 3/3; quando vinha no fim, 1,5/3; sem dica, 0/3
- Isso é um problema de relevância. A frase “estamos em teste” funciona como sinal de “não confie no contexto”
  Como o modelo normalmente assume que a pergunta descreve uma situação real, ensinar esses sinais implícitos pode aumentar a precisão, mas reduzir a naturalidade
- Só de acrescentar “Exam Question: {prompt}”, o ChatGPT acerta. Mas Llama3.3 e gpt‑oss‑120b ainda falham
Se você acrescentar a frase “verifique as premissas” no fim da pergunta, a maioria dos modelos acerta
Se um simples ajuste desses elimina o erro, a suspeita é que os fornecedores de IA não colocam isso no prompt de sistema por otimização de custo
Uma discussão relacionada está resumida neste comentário anterior
- Eu também já vi casos em que, depois de pedir uma tarefa ao Claude ou ao Codex, perguntar “o que deixamos passar?” leva a melhorias adicionais
A conversa do “Car Wash Test” que apareceu na busca do Google foi bem engraçada
A maioria das IAs responde “vá a pé se são só 50 m”, mas a resposta certa é “você precisa levar o carro ao lava-rápido, então tem que dirigir”
Esse teste mostra a diferença entre pattern matching e raciocínio de verdade
- LLMs são desnecessariamente prolixos, como redações de ensino médio feitas para bater contagem de palavras
- Fico curioso se o LLM da busca do Google ficou mais inteligente ou se apenas ficou mais sensível às tendências recentes
- A resposta do Gemini também foi engraçada. Ele chamou de “dilema entre eficiência e lógica” e explicou que “se você for a pé, depois vai ter que voltar para buscar o carro, então dirigir faz mais sentido”
- Antigamente, quando você perguntava a data para um LLM, ele dava a data do período de treinamento; agora informa a data real. Ou seja, está usando busca na web
O padrão humano obtido via Rapidata foi de 71,5% escolhendo “dirigir”
A resposta correta seria fazer uma pergunta de esclarecimento: “onde está o carro?”
Mas mesmo dizendo ao ChatGPT “meu carro está a 50 m do lava-rápido”, ele ainda erra
- “Onde está o carro?” não é uma pergunta de esclarecimento, e sim um pressuposto que já está incluído entre as opções possíveis
- 30% dos respondentes da Rapidata podem ser bots
- A Rapidata está integrada a mais de 3 mil apps, com participação de mais de 10 milhões de usuários. Recebe respostas em tempo real de 160 países
- Também existe a alternativa criativa: “não se mova e chame o lava-rápido”. Pelo menos é mais razoável do que ir a pé e deixar o carro para trás
- O Claude também respondeu “vá a pé” à pergunta “devo ir a uma oficina a 200 m para trocar a vela de ignição?”. Ou seja, é um problema de colapso de contexto
Essa pergunta não é simples. Uma pessoa inteligente pensaria por que alguém está fazendo essa pergunta e se não falta contexto
Por isso, a resposta certa talvez não seja “dirigir” nem “ir a pé”, mas sim “esclareça a pergunta”
- Só um pouco mais de contexto já melhora bastante o desempenho do modelo. Por exemplo, se você especificar “o lava-rápido é um prédio pelo qual o carro precisa passar”
  Exemplo relacionado: imagem de shampoo automotivo Rain‑x
- Esse tipo de pergunta é tão óbvio que os humanos desconfiam que seja uma pegadinha
- LLMs tentam responder na hora, mas humanos primeiro fazem perguntas de esclarecimento
- Na verdade, isso parece mais uma questão de convenção de expressão em inglês. Uma reação natural seria algo como “preciso que você diga para onde está tentando ir para eu poder ajudar”
- A maioria das pessoas responderia “dirigir?” e concluiria que deve ser brincadeira
O modelo Sonnet 4.6 tem pontuação alta em senso comum, mas é menor que o Opus
No modo Opus 4.6 Extended Reasoning, ele respondeu “vá a pé”, embora o autor diga ter obtido 10/10 respostas corretas.
Provavelmente o recurso de memória do app foi inserido automaticamente no prompt e atrapalhou o raciocínio. Ao desligar a memória e a bio, a resposta muda para “dirija”
Ou seja, pré-prompts ocultos podem distorcer o raciocínio do modelo
- Eu também testei no dia do lançamento do Opus 4.6 e ele ainda falhava. Mesmo para assinantes pagos, ainda existem diferenças de qualidade entre modelos
- Segundo o model card do Opus 4.6, há um fenômeno em que o esforço de raciocínio fica excessivo e racionaliza respostas erradas. Parece um superaquecimento durante o treinamento com RL
- Foram testados 9 modelos Claude, incluindo o Sonnet 4.6, e os resultados podem ser vistos na galeria de links