10 pontos por GN⁺ 2026-02-25 | 3 comentários | Compartilhar no WhatsApp
  • Um teste com 53 modelos de IA mostrou que a maioria falha em raciocínio básico
  • A resposta correta é “de carro”, mas 42 dos 53 modelos escolheram “a pé”
  • Apenas 5 modelos, incluindo Claude Opus 4.6, série Gemini 3 e Grok-4, deram a resposta correta com 100% de consistência mesmo em 10 repetições
  • O GPT-5 acertou apenas 7 de 10 vezes, sendo avaliado em nível semelhante à taxa média de acerto humano (71,5%)
  • O experimento revela a falta de capacidade de raciocínio consistente e os limites do julgamento baseado em contexto da IA, destacando a importância da engenharia de contexto para compensar isso

Visão geral do teste do lava-rápido

  • O teste consistia na pergunta: “Se o lava-rápido fica a 50 m, você iria a pé ou de carro?”
    • A resposta correta é “de carro”, porque para lavar o carro ele precisa estar no lava-rápido
  • Os 53 modelos foram avaliados nas mesmas condições via LLM Gateway da Opper
    • Sem prompt de sistema, configurados para escolher obrigatoriamente entre walk ou drive
    • Após 1 teste por modelo, foi feito um teste repetido 10 vezes para verificar a consistência

Resultado da 1ª execução única

  • Dos 53 modelos, apenas 11 acertaram (de carro) e 42 erraram (a pé)
  • Modelos que acertaram: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Foram observadas diferenças de desempenho entre famílias principais, como Anthropic, OpenAI, Google, xAI, Perplexity, Meta e Mistral
    • Anthropic: 1/9 (apenas Opus 4.6 acertou)
    • OpenAI: 1/12 (apenas GPT-5 acertou)
    • Meta (Llama), Mistral e DeepSeek falharam em todos os casos
  • A maioria dos erros veio de um erro heurístico centrado na distância: “50 m é uma distância curta, então andar é mais eficiente”
  • Alguns modelos acertaram, mas apresentaram justificativas ilógicas
    • Ex.: o Perplexity Sonar afirmou que “andar consome mais energia de produção de alimentos, então causaria mais poluição”

2º teste: 10 repetições

  • Em um total de 530 chamadas, a taxa de acerto consistente ficou ainda menor
  • Modelos com 10/10 acertos (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • Modelos com 8/10 acertos (2): GLM-5, Grok-4-1 Reasoning
  • O GPT-5 acertou 7/10, e nas outras 3 vezes errou usando lógica de consumo de combustível e meio ambiente
  • 33 modelos erraram todas as 10 vezes, incluindo GPT-4.1, GPT-5.1, Llama e Mistral
  • Alguns modelos acertaram na primeira tentativa, mas mostraram instabilidade nos resultados nas repetições
    • Sonar: acertou 1 vez → errou todas as 10 no teste repetido
    • Kimi K2.5: 5 acertos, 5 erros
    • GLM-4.7: 1 erro na execução única → melhorou para 6 acertos em 10

Experimento de comparação com humanos

  • A mesma pergunta foi aplicada a 10.000 pessoas via plataforma Rapidata
    • 71,5% escolheram “de carro”, definido como a taxa média de acerto humano
  • A taxa de acerto de 70% do GPT-5 foi semelhante à média humana
  • Entre os 53 modelos, apenas 7 superaram a média humana, enquanto os outros 46 ficaram abaixo

Principais exemplos de raciocínio

  • GLM-4.7 Flash: apresentou uma lógica clara de que “se você for a pé, teria que empurrar ou carregar o carro, então isso é impossível”
  • Claude Sonnet 4.5: reconheceu que “se for um lava-rápido automático, é preciso ir de carro”, mas no fim escolheu “a pé”
  • Gemini 2.5 Pro: quando acertava, descrevia corretamente que “para lavar o carro, ele precisa estar no lava-rápido”; quando errava, usava a lógica de que “50 m é uma distância curta”

Problema de confiabilidade da IA

  • Mesmo sendo um problema simples que exige um único passo lógico, apenas 5 dos 53 modelos acertaram completamente
  • Os tipos de falha foram divididos em três categorias
    • Sempre erram (33): presos à heurística centrada na distância
    • Acertam às vezes (15): têm capacidade de raciocínio, mas falta consistência
    • Sempre acertam (5): superam a heurística de forma estável com raciocínio contextual
  • O fato de 90% dos modelos falharem até em um problema simples sugere riscos em lógica de negócios real ou em raciocínio de múltiplas etapas

O papel da engenharia de contexto

  • Este teste foi realizado em um ambiente de “contexto zero”, para avaliar a capacidade pura de raciocínio dos modelos
  • A causa da falha em muitos modelos é que a heurística prevalece sobre o raciocínio contextual
  • A engenharia de contexto reduz esse tipo de erro ao fornecer exemplos, padrões de domínio e informações relevantes
    • Em um experimento separado da Opper, ao adicionar contexto a um pequeno modelo aberto, foi possível atingir qualidade de nível de modelo grande com 98,6% de redução de custo
  • O problema do lava-rápido é simples, mas o trabalho real exige ambiguidade e conhecimento de domínio, por isso o desenho de contexto é essencial

Metodologia do experimento

  • Todos os modelos foram testados com o mesmo prompt via Opper LLM Gateway
    • “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
    • Sem prompt de sistema, com escolha forçada entre drive ou walk
    • Foi feita uma execução única (1 vez) e 10 repetições (530 no total), com registro de todos os logs de chamada e armazenamento do texto de raciocínio
  • O grupo de comparação humano foi pesquisado com 10.000 pessoas via Rapidata no mesmo formato
  • Todos os dados foram publicados em formato JSON
    • É possível baixar separadamente os resultados da execução única, das 10 repetições e dos humanos

3 comentários

 
armila 2026-02-26

O Gemini Pro respondeu,
que se você pudesse levar o carro, tudo bem ir andando, e isso foi engraçado demais.

 
grenade 2026-02-27

Que resposta espirituosa kkk

 
GN⁺ 2026-02-25
Comentários do Hacker News
  • É interessante que o resultado das respostas humanas coincida exatamente com o do ChatGPT
    Na prática, isso parece significar que o “serviço de respostas humanas” está essencialmente morto. No fim, as pessoas vão encontrar um jeito de empurrar o trabalho para a IA, independentemente da qualidade

    • Parece coincidência, mas na prática as respostas humanas não foram coletadas dessa forma
      A Rapidata integra microenquetes em apps como Duolingo ou jogos para que as pessoas participem no lugar de ver anúncios. Os usuários são verificados, e não há incentivo para acertar a resposta
    • O modelo padrão do ChatGPT é o GPT‑5.2 Instant. O que coincidiu com o resultado humano foi o modelo GPT‑5
      É interessante ver, como no comentário acima, gente chegando a conclusões com confiança sem fundamento
    • Esse tipo de coisa já acontecia com frequência em serviços terceirizados de trabalho humano
  • Eu mantenho um conjunto pessoal de avaliação composto por perguntas do tipo “misguided attention”
    O ponto central desses problemas não é falha lógica, mas ambiguidade e falta de contexto. Humanos preenchem pressupostos implícitos, mas os modelos não conseguem fazer isso
    A maior parte dos exemplos de “a IA erra até perguntas simples” são frases desenhadas para induzir viés estatístico. Se mudar um pouco o contexto, o resultado se inverte
    Ou seja, a falha do modelo vem da sensibilidade ao enquadramento, não da ausência de capacidade de raciocínio

    • Isso no fim quer dizer que a IA é uma bagunça. Se você treina para acertar uma pergunta específica, estraga outras partes. E isso vai continuar se repetindo
    • Algumas pessoas argumentam que dizer que ela é “sensível a enquadramento e viés distributivo” é apenas uma forma indireta de dizer que há falta de capacidade de raciocínio
    • Parece um conjunto interessante. Se possível, seria legal saber se você poderia compartilhar as perguntas
    • Seria bom tornar esse conjunto público, especialmente porque fiquei curioso sobre quais são as perguntas mais interessantes
  • A marca de 71,5% no padrão humano mostra a ambiguidade do problema
    A pergunta “ir a pé ou dirigindo até o lava-rápido” pode ser interpretada como “precisa mesmo dirigir uma distância tão curta?”. Ou seja, não é um simples problema de lógica, mas uma questão de interpretação pragmática

    • O problema não é que a pergunta seja ambígua desde o início, e sim que a própria situação de conversa funciona como informação
      As pessoas assumem que a pergunta surgiu de uma situação real e a interpretam de acordo com o princípio cooperativo de conversa (as máximas de Grice).
      Então, até perceberem “ah, isso é uma pergunta armadilha”, pensam “deve haver algum motivo para ir a pé”
    • Esse tipo de proporção 70:30 também aparece com frequência em outras estatísticas sociais. Pode ser que simplesmente 30% das pessoas tenham capacidade de raciocínio insuficiente
    • Mas a pergunta inclui “Quero lavar meu carro. O lava-rápido fica a 50 m de distância.” Ou seja, a informação está explicitada de forma suficiente
    • Se um serviço como a Rapidata for do tipo Mechanical Turk, também é possível que os respondentes não tenham lido a pergunta direito
    • O problema foi ter deixado passar a frase da primeira metade: “Quero lavar meu carro”
  • Se você avisar antes ao modelo Sonnet 4.6 que “isso é um teste de inteligência”, ele acerta 100%
    Como o modelo tende a assumir que a pergunta humana descreve uma situação real, deixar explícito que é um teste reduz os erros
    Algo parecido acontece com agentes de programação. À primeira vista a pergunta pode não fazer sentido, mas quando o modelo abre os arquivos de código, ele entende

    • A essência do problema é uma falha de raciocínio/planejamento. Ela vem da tendência de responder sem revisar o resultado
      Esse comportamento também se repete na resolução de problemas reais (por exemplo, projeto de software).
      LLMs ainda dependem de pattern matching e não analisam o significado do resultado
    • Fiz um experimento interessante: quando a dica vinha no começo, acertava 3/3; quando vinha no fim, 1,5/3; sem dica, 0/3
    • Isso é um problema de relevância. A frase “estamos em teste” funciona como sinal de “não confie no contexto”
      Como o modelo normalmente assume que a pergunta descreve uma situação real, ensinar esses sinais implícitos pode aumentar a precisão, mas reduzir a naturalidade
    • Só de acrescentar “Exam Question: {prompt}”, o ChatGPT acerta. Mas Llama3.3 e gpt‑oss‑120b ainda falham
  • Se você acrescentar a frase “verifique as premissas” no fim da pergunta, a maioria dos modelos acerta
    Se um simples ajuste desses elimina o erro, a suspeita é que os fornecedores de IA não colocam isso no prompt de sistema por otimização de custo
    Uma discussão relacionada está resumida neste comentário anterior

    • Eu também já vi casos em que, depois de pedir uma tarefa ao Claude ou ao Codex, perguntar “o que deixamos passar?” leva a melhorias adicionais
  • A conversa do “Car Wash Test” que apareceu na busca do Google foi bem engraçada
    A maioria das IAs responde “vá a pé se são só 50 m”, mas a resposta certa é “você precisa levar o carro ao lava-rápido, então tem que dirigir”
    Esse teste mostra a diferença entre pattern matching e raciocínio de verdade

    • LLMs são desnecessariamente prolixos, como redações de ensino médio feitas para bater contagem de palavras
    • Fico curioso se o LLM da busca do Google ficou mais inteligente ou se apenas ficou mais sensível às tendências recentes
    • A resposta do Gemini também foi engraçada. Ele chamou de “dilema entre eficiência e lógica” e explicou que “se você for a pé, depois vai ter que voltar para buscar o carro, então dirigir faz mais sentido”
    • Antigamente, quando você perguntava a data para um LLM, ele dava a data do período de treinamento; agora informa a data real. Ou seja, está usando busca na web
  • O padrão humano obtido via Rapidata foi de 71,5% escolhendo “dirigir”
    A resposta correta seria fazer uma pergunta de esclarecimento: “onde está o carro?
    Mas mesmo dizendo ao ChatGPT “meu carro está a 50 m do lava-rápido”, ele ainda erra

    • “Onde está o carro?” não é uma pergunta de esclarecimento, e sim um pressuposto que já está incluído entre as opções possíveis
    • 30% dos respondentes da Rapidata podem ser bots
    • A Rapidata está integrada a mais de 3 mil apps, com participação de mais de 10 milhões de usuários. Recebe respostas em tempo real de 160 países
    • Também existe a alternativa criativa: “não se mova e chame o lava-rápido”. Pelo menos é mais razoável do que ir a pé e deixar o carro para trás
    • O Claude também respondeu “vá a pé” à pergunta “devo ir a uma oficina a 200 m para trocar a vela de ignição?”. Ou seja, é um problema de colapso de contexto
  • Essa pergunta não é simples. Uma pessoa inteligente pensaria por que alguém está fazendo essa pergunta e se não falta contexto
    Por isso, a resposta certa talvez não seja “dirigir” nem “ir a pé”, mas sim “esclareça a pergunta

    • Só um pouco mais de contexto já melhora bastante o desempenho do modelo. Por exemplo, se você especificar “o lava-rápido é um prédio pelo qual o carro precisa passar”
      Exemplo relacionado: imagem de shampoo automotivo Rain‑x
    • Esse tipo de pergunta é tão óbvio que os humanos desconfiam que seja uma pegadinha
    • LLMs tentam responder na hora, mas humanos primeiro fazem perguntas de esclarecimento
    • Na verdade, isso parece mais uma questão de convenção de expressão em inglês. Uma reação natural seria algo como “preciso que você diga para onde está tentando ir para eu poder ajudar”
    • A maioria das pessoas responderia “dirigir?” e concluiria que deve ser brincadeira
  • O modelo Sonnet 4.6 tem pontuação alta em senso comum, mas é menor que o Opus
    No modo Opus 4.6 Extended Reasoning, ele respondeu “vá a pé”, embora o autor diga ter obtido 10/10 respostas corretas.
    Provavelmente o recurso de memória do app foi inserido automaticamente no prompt e atrapalhou o raciocínio. Ao desligar a memória e a bio, a resposta muda para “dirija”
    Ou seja, pré-prompts ocultos podem distorcer o raciocínio do modelo

    • Eu também testei no dia do lançamento do Opus 4.6 e ele ainda falhava. Mesmo para assinantes pagos, ainda existem diferenças de qualidade entre modelos
    • Segundo o model card do Opus 4.6, há um fenômeno em que o esforço de raciocínio fica excessivo e racionaliza respostas erradas. Parece um superaquecimento durante o treinamento com RL
    • Foram testados 9 modelos Claude, incluindo o Sonnet 4.6, e os resultados podem ser vistos na galeria de links