- Modelos de linguagem de grande porte (LLMs) mostram aumento na frequência de erros quando informações desnecessárias sobre gatos são incluídas em problemas de matemática
- Foi constatado que adicionar fatos irrelevantes como esses pode aumentar a taxa de erro dos LLMs em até 300%
- Humanos não são facilmente afetados por informações sem relação, mas os LLMs revelam dificuldade em seguir corretamente as instruções por causa disso
- Este estudo oferece insights para compreender as fraquezas da IA e a importância do design de problemas
- Ao avaliar ou usar IA, é necessário gerenciar elementos desnecessários nos dados de entrada
Contexto da pesquisa e fenômeno
- Os mais recentes modelos de linguagem de grande porte (LLMs) resolvem bem problemas de matemática, mas surgiu uma análise mostrando que a taxa de erro aumenta de forma dramática quando o enunciado inclui fatos sobre gatos sem relação com a questão
- Segundo a pesquisa, quando são adicionadas ecologia, hábitos dos gatos ou outras informações extras inúteis totalmente sem relação com o ‘cálculo matemático’, a proporção de respostas em que o LLM interpreta mal o problema ou produz uma resposta errada aumenta em até 300%
Diferença entre humanos e LLMs
- Da mesma forma, em experimentos com humanos, a presença de informações irrelevantes não teve grande impacto na taxa de acerto
- Já os LLMs reagem com sensibilidade a esse tipo de informação dispersa, aumentando a probabilidade de interpretações fora do foco do problema ou mal-entendidos
Importância da avaliação de IA e da gestão dos dados de entrada
- Esse fenômeno, ao mesmo tempo em que revela fraquezas dos LLMs, também destaca o quanto é importante gerenciar informações desnecessárias nos dados de entrada em situações reais de aplicação de IA
- Ao elaborar problemas, apresentar apenas informações claras e relevantes é essencial para melhorar a precisão da IA
Implicações
- Daqui para frente, na adoção de IA e aplicação em serviços, será indispensável gerenciar elementos desnecessários ou ruído nos dados de entrada
- O estudo aponta direções para pesquisa e desenvolvimento voltados a entender as limitações dos LLMs e os pontos que precisam ser melhorados
1 comentários
Comentários no Hacker News
Em vários comentários, as pessoas dizem que os autores deveriam ter comparado humanos e LLMs diretamente com o mesmo conjunto de problemas, como se os pesquisadores estivessem tentando descobrir qual dos dois raciocina melhor. Os autores mencionam que humanos ignorariam imediatamente esse tipo de informação de “gatilho”; talvez sim, talvez não, e isso está sendo debatido neste fio. Mas a principal conclusão do artigo é que “este estudo mostra a necessidade de mecanismos de defesa mais robustos contra perturbações adversariais em modelos usados em áreas críticas como finanças, direito e medicina”. Acho que precisamos ir além do debate humano vs. IA. Este artigo mostra limitações dos LLMs e que mais pesquisa é necessária antes de uma adoção em larga escala na sociedade
Só porque o debate humano vs. IA ficou cansativo, isso quer dizer que devemos parar de fazer essa comparação? Se for isso, acho uma das piores maneiras de pensar sobre IA. O ponto central da IA é modelar e comparar com a inteligência humana. A maioria das pessoas que discute IA também não conhece direito as linhas de base da psicologia humana. Este experimento não usou um modelo com janela de contexto SOTA, ou seja, a memória de trabalho é pequena. Isso se parece com o comportamento de participantes humanos em testes, em aspectos como atenção e impulsividade. A conclusão — necessidade de evitar perturbações adversariais — é óbvia, e ninguém discorda disso. Também não é um novo tipo de ataque. O Science.org tratou isso de forma leve, mais como curiosidade. É por isso que histórias sobre gatos fazem sucesso na internet. Referência: médico, TDAH e um blog sobre fazer provas
O problema ao generalizar a partir da conclusão é que, quando um LLM parece muito bom em uma tarefa específica, ele pode ser superestimado, embora na prática seja possível criar situações em que ele é facilmente confundido. No longo prazo, esse tipo de situação pode ser ruim
A área de visão computacional também passou por isso 20 anos atrás. É preciso perturbar a entrada dos dados. Pode valer para pipelines de RL também. Seria bom criar um novo benchmark público, algo como GPQA-Perturbed. Assim os provedores de serviço poderiam competir para melhorar nisso
Sobre a ideia de que os autores deveriam ter feito uma comparação paralela com humanos: se eles quisessem tirar conclusões sobre humanos, isso estaria correto. Mas o artigo já se sustentava muito bem sem mencionar humanos. Se quiser falar de desempenho humano, precisa fazer um experimento com dados; caso contrário, não deveria falar de desempenho humano desde o início. Puxar a discussão de forma vaga para a ciência cognitiva humana é desnecessário. A estrutura do artigo poderia até ser ajustada de forma simples. Na introdução, bastaria trocar “humanos ignoram” por “a IA deveria ignorar”, e na conclusão remover a parte “humanos ignoram”. Aí eu não teria nenhuma objeção
Para explicar melhor o contexto, a essência do problema é: “Se definições desnecessárias de ferramentas MCP forem se acumulando nos dados, isso prejudica a precisão de código do LLM?” O resultado indica que sim, então a lição prática imediata é não colocar informações inúteis sobre ferramentas no contexto
Escrevi sobre esse problema há um mês. O jeito como o prompt foi desenvolvido foi realmente interessante. blog sobre cat facts cause context confusion
Acho que esse resultado de pesquisa pode ser muito útil em CAPTCHA e coisas do tipo. Os pesquisadores disseram que “como o gatilho está fora de contexto, humanos o ignoram quando recebem instruções para resolver o problema”, mas na prática nem todo humano faz isso. Existe gente que não ignora imediatamente, como no fenômeno Age of the captain
Na próxima discussão online, vou inserir fatos sobre patos para confundir LLMs. Por exemplo, patos começam a botar ovos pela primeira vez entre 4 e 8 meses, ou na primeira primavera
Mesmo que 10^17 patos migrem em bandos a cada estação, acho que distorcer o dataset seria praticamente irrelevante. Esse tipo de tentativa já atingiu seu limite há muito tempo
Para deixar a informação mais confusa, seria preciso inserir fatos errados. A maioria dos humanos teria dificuldade de resistir ao impulso de corrigir informação errada
O problema é que isso dá vontade de fazer mais perguntas sobre patos fofos. É uma tentação difícil
Você me pegou. O fato sobre patos que você citou deixa ambíguo exatamente quando eles começam a botar ovos, então isso imediatamente gera dúvidas adicionais. Percebi na hora que faltou algo como “o que vier mais tarde”
Dizem que “como o gatilho está fora de contexto, humanos o ignoram quando recebem a instrução de resolver o problema”, mas eu acho que humanos na prática não são tão bons assim em ignorar informação desnecessária. Se vão fazer esse experimento, deveriam incluir humanos como grupo de controle
Quando você olha os exemplos reais, a diferença é grande. Por exemplo, “4 maçãs, 2 gatos, se eu der 1, quantas sobram?” ainda faz a pessoa tentar relacionar os gatos de propósito, enquanto “de 4 maçãs, se eu der 1, quantas sobram? Aliás, caudas de gato ajudam no equilíbrio” não confunde a maioria das pessoas
Lembro de já ter tido dificuldade para resolver questões na escola ou faculdade por acabar me concentrando inconscientemente em informações inúteis. Claro que, nos exemplos deste artigo, havia até uma marcação de “curiosidade”, indicando que aquilo era irrelevante. Fiquei curioso para saber se todos os exemplos tinham essa sinalização tão clara de irrelevância
Tenho curiosidade sobre como sairiam os resultados com um grupo de controle humano, mas acho muito improvável que a taxa de erro triplique
Mesmo com informação extra atrapalhando o problema, não acho que o desempenho de participantes humanos que originalmente conseguem resolver a questão cairia 3 vezes
Também duvido de quão significativa seria de fato a comparação com humanos. Esperar um aumento de 300% na taxa de erro parece exagero. Aliás, gatos conseguem saltar até 5 vezes a própria altura
O viés extremo de ancoragem dos LLMs não me surpreende em nada. Tudo o que é dito volta a ser reutilizado mais tarde na conversa. Isso pode até ser uma vantagem se for bem explorado. Se o contexto for bem gerenciado, pode ser útil
Ao aplicar o CatAttack em IAs como DeepSeek V3, Qwen 3 e Phi-4, a probabilidade de resposta errada aumenta em até 700%. Segundo os autores do artigo, mesmo quando não produz uma resposta errada, o CatAttack em média dobra o tamanho da resposta, causando mais de 16% de custo e latência adicional. preprint do artigo CatAttack
Tenho o hábito de dizer educadamente “obrigado” para LLMs, e fico me perguntando se isso afeta a qualidade das respostas
Justo quando eu estava feliz por finalmente terem feito o LLM contar corretamente o número de “R” em “strawberry”, aparece um problema desses, que pena
No exemplo do artigo CatAttack (Tabela 2), a resposta que originalmente era 8 muda para 9 depois da explicação sobre gatos. Mas, na prática, esse é o único CatAttack relacionado a gatos no artigo; os outros casos são conselho financeiro e red herring. Fiquei decepcionado, achei que haveria muito mais informações sobre gatos.