Respostas de IA podem conter erros

(os2museum.com)

2 pontos por GN⁺ 2025-06-02 | 2 comentários | Compartilhar no WhatsApp

Resumos de busca com IA nem sempre são precisos
Informações variadas sobre o PS/2 Model 280 são fornecidas de forma diferente a cada nova consulta
O problema de alucinação da IA faz com que ela explique de forma convincente até números de modelo inexistentes
A probabilidade de surgir uma resposta correta é muito baixa
Pessoas não especialistas correm alto risco de interpretar informações erradas como verdadeiras

Experiência com o problema de confiabilidade dos resumos de busca com IA

Tentativa de buscar modelos IBM PS/2

Foi feita uma busca no Google por um modelo específico do sistema PS/2 Server, lançado em 1992
As informações exibidas nos resultados não correspondiam à máquina procurada, e o modelo original tinha como características o uso de processadores 486 e Microchannel (MCA)

Resultados repetidos e respostas inconsistentes

Mesmo repetindo a mesma consulta, o resumo gerado por IA aparecia diferente a cada vez
Por exemplo, repetidamente aparecia a afirmação de que o PS/2 Model 280 era um sistema ISA baseado em 286
Em cada resposta, até mesmo as informações de capacidade e especificações de RAM mudavam, evidenciando dados inconsistentes

Explicações alucinadas sobre um modelo inexistente

Após várias consultas, surgiram até alegações tecnicamente impossíveis, como a de que um sistema 286 poderia ser expandido até 128 MB
Também apareceu a explicação de que o PS/2 Model 280 teria sido um avanço importante na linha de PCs da IBM
Na realidade, o próprio PS/2 Model 280 não existe, mas a IA forneceu explicações sem fundamento de forma bastante convincente

Baixa frequência de respostas corretas

Só depois de várias tentativas apareceu ocasionalmente a resposta correta: “Model 280 não existe de fato dentro da série PS/2”
A proporção de respostas corretas é muito baixa e, na maioria dos casos, a IA inventa informações sem base
Respostas alucinadas não têm valor como informação e, pior, transmitem uma falsa confiança

Cuidado com a confiança cega em resumos de busca com IA

Buscas na internet baseadas em IA podem parecer muito convincentes para quem não é especialista
Um especialista perceberia rapidamente os erros, mas, para usuários com pouca capacidade de verificar informações, é fácil ser enganado por dados falsos
O aviso de que a IA “pode cometer erros” não é algo a ser tratado com leveza, e é arriscado depender de respostas de IA sem um processo confiável de verificação dos fatos
Reforça-se que soar convincente não significa estar baseado em fatos reais
É sempre necessário manter ceticismo e checagem dos fatos diante de resumos ou resultados de busca baseados em IA

2 comentários

ndrgrd 2025-06-03

Acho que é melhor pedir ao LLM apenas para resumir. O processo de encontrar a fonte dos dados e verificá-la é indispensável.

GN⁺ 2025-06-02

Comentários no Hacker News

Menção à característica de confabulação dos resultados de busca do Google Gemini, que inventa respostas de qualquer jeito para parecer que está respondendo à pergunta; crítica ao fato de não ligar para contexto nem precisão; relato de que só dá para usar como ajuda de memória quando você já espera o resultado, mas fora isso é totalmente indigno de confiança; os resultados do Google Veo também têm muitos buracos; fica óbvio que os resultados de IA não têm lógica nem raciocínio; compartilhamento de exemplos de resultados absurdos do Veo e de um link sobre um acidente com comportamento estranho do Tesla FSD
[Realismo em vídeo com IA] (https://arstechnica.com/ai/2025/05/ai-video-just-took-a-star...)
[Notícia sobre acidente com Tesla FSD] (https://electrek.co/2025/05/23/tesla-full-self-driving-veers...)
- Formou-se um clima em que resultados com essa qualidade passaram a ser aceitos como “normais” e “aceitáveis”; o fato de quase ninguém tratar isso como um problema é profundamente preocupante; antes isso seria absolutamente inadmissível, então surge a dúvida de por que respostas imprecisas estão sendo cada vez mais aceitas agora
- Relato de quem pesquisou no Google sobre recursos automotivos: a busca tradicional do Google costumava lidar muito bem com esse tipo de consulta, mas agora 90% da página está tomada por resultados de IA com anos, modelos e marcas errados misturados; a única coisa um pouco útil foi um vídeo no YouTube, e a resposta certa estava escondida no fim da página em um antigo fórum de carros, daí os agradecimentos ao CamaroZ28.com
- Isso parece um fenômeno mais desconcertante do que qualquer outra tecnologia; é difícil entender por que o Google está apostando seu negócio principal numa guinada para uma tecnologia tão gravemente defeituosa; a promessa de gente como Ben Evans de que “vai melhorar” soa vazia; exemplo real de uma busca por um evento memorial realizado no dia anterior na Alemanha, em que o AI Overview pegou o nome de um músico italiano já falecido e inventou que o local do show era a maior obra desse músico; ao colar essa resposta no ChatGPT, a pessoa ainda recebeu uma resposta gentil e afiada zombando do erro do AI Overview, o que achou engraçado
- A IA superficialmente parece a coisa mais inteligente de todos os tempos, mas quando se tenta acompanhar a lógica ou o raciocínio interno, entra numa estranha sensação de “uncanny valley”
- Sinceramente, é difícil entender como as pessoas usam LLM como substituto de busca; os chatbots sempre entregam apenas dados adjacentes ao que se quer de fato, como dar citações em vez das fontes; fica a dúvida se o problema é estar pesquisando errado
Mesmo entendendo as limitações e a natureza probabilística dos LLMs, há o desabafo de que familiares e amigos ao redor confiam nos LLMs e os usam em tarefas inadequadas, fazendo com que só a pessoa pareça cética em relação à IA; eles até pedem para a IA dividir números, como em uma conta rachada, e confiam cegamente no resultado
- Um caso clássico de usar alta tecnologia para resolver um problema de baixa tecnologia, com deboche sobre delegar até contas simples para a máquina
- O lado traiçoeiro é que, no uso cotidiano, o resultado costuma estar “bom o bastante”, e isso leva as pessoas a dependerem dele por hábito
- Pedir para um LLM fazer contas simples é algo bastante engraçado; surge até a piada de que seria melhor mandar ele escrever Python com as variáveis
- Comparação do uso de LLM com algo que também prejudica quem está ao redor, como fumar em ambiente fechado
- Sobre o fenômeno de “mandar a IA calcular e procurar informação, e confiar 100% no resultado”, há a opinião de que, para esse tipo de uso simples e mecânico, os chatbots atuais realmente acertam quase tudo; como eles conseguem lidar com várias funções de uma vez, surge a pergunta de por que seria necessário ficar trocando de app conforme o contexto; no fim, usabilidade é o fator mais forte
Crítica à ideia de que uma frase simples como “respostas de IA podem conter erros”, ou o aviso no rodapé do ChatGPT, já seria suficiente; mesmo após anos de alertas sobre alucinações de LLM, as pessoas continuam errando, então os provedores de LLM deveriam educar os usuários de forma mais agressiva sobre as limitações, mesmo que isso prejudique um pouco a experiência de uso
- Nessa discussão, parece que o máximo a fazer seria responsabilizar o provedor do modelo ou manter o sistema atual de avisos limitados; os modelos de IA e os serviços em nuvem já têm camadas de filtragem e censura, e qualquer atrito extra além disso acabaria sendo algo pequeno, como mais pop-ups; se começar a responsabilizar os provedores, o próprio negócio de modelos abertos se tornaria inviável, restando apenas licenciamento privado entre empresas, sem API aberta ao público; no máximo se imagina alguma flexibilização futura se o clima mudar
- Sobre a ideia de que “a educação do usuário precisa ser mais eficaz”, há a opinião de que isso é algo que as pessoas só aprendem pela experiência, quase como um “só entende quando sofre na pele”; nenhum aviso seria tão eficaz quanto um dano real
- Como os LLMs são vendidos com a justificativa de substituir trabalho intelectual humano, existe a visão de que os provedores não podem enfatizar ativamente suas limitações sem entrar em contradição com discursos como os do CEO da Anthropic, que já falou repetidas vezes sobre desemprego em massa inevitável
- Menção aos tempos em que Apple Maps e Google Maps enfrentavam crises de relações públicas por orientações erradas; hoje parece que basta colocar um aviso e tudo bem; há decepção com a tolerância excessiva dada às novas tecnologias
- Ênfase em que o aviso deveria aparecer no topo da página, em letras vermelhas e grandes
Explicação de que modelos de linguagem não foram projetados para “saber” coisas, e sim para “falar”, daí o nome “language model” e não “knowledge model”; eles apenas encadeiam probabilisticamente qual palavra vem depois da já gerada; o motivo de darem respostas diferentes a cada vez é a existência interna de uma distribuição de probabilidade da qual a próxima palavra é escolhida com ajuda de um gerador pseudoaleatório; se a temperatura (temperature) for definida como 0, a aleatoriedade desaparece e o modelo sempre escolhe a palavra mais provável, o que torna o resultado muito entediante; sobre IBM, PS/2, 80286, 80486 e outros assuntos, o modelo não “sabe” de fato, apenas faz sequenciamento de palavras
- Relato de que, mesmo com temperatura 0, modelos locais ainda funcionam bem; o bloqueio desse valor em interfaces de nuvem serviria para impedir que o público visse bugs em que o modelo entra em loop infinito
- Concorda-se com a ideia de que o modelo de linguagem não fornece “conhecimento”, apenas gera fala, mas para quem usa Google, o objetivo não é conversar, e sim obter conhecimento real; por isso, tentar substituir fornecimento confiável de conhecimento por mera “geração de palavras” é visto como um erro fundamental do Google, embora talvez isso pouco importe se o objetivo real for receita publicitária
Observação de que até no próprio site de busca do Google o aviso “respostas de IA podem conter erros” fica escondido abaixo do botão “Mostrar mais”; quando o OpenAI ChatGPT foi lançado, houve a experiência de explicar a um professor fora da área que a IA atual não é “IA de verdade”, mas algo mais próximo de um truque de salão computacional; ainda assim, esse “truque” é surpreendentemente eficaz para copiar trabalhos; no geral, a impressão é de que não serve só para tarefas escolares, mas é uma excelente ferramenta para “colar” em várias atividades, desde que não se ligue muito para qualidade ou direitos autorais
- Dúvida quanto à visão de que “parece que escreve código, mas na verdade não escreve”; na prática, ele consegue sim escrever código, e ninguém também sabe exatamente o que acontece nos bastidores do cérebro humano; esse debate essencialista não teria muito sentido, o que importa são os resultados reais
- Visão prática do LLM como uma ferramenta de apoio à memória e recuperação de informação com interface flexível de entrada e saída
O Gemini parece otimizado para perguntas frequentes, mas tende a dar respostas confabuladas e absurdas quando a intenção é uma busca mais tradicional; muitas pessoas tratam o AI Overview como se fosse um oráculo, e essa parece ser a forma como o público em geral experiencia IA; ao contrário da confiança em “notícias”, a IA é confiada por pessoas de todas as idades e perfis demográficos; fica a impressão de que os seres humanos, por natureza, gostam de respostas de computador dadas com confiança, mesmo sem base
- Considera-se especialmente grave a mudança no ambiente de busca do Google; antigamente, a interface de trechos destacados no topo da página foi usada por mais de 10 anos, extraía conteúdo de sites confiáveis e economizava cliques, servindo como fonte digna de confiança; em perguntas médicas, por exemplo, apareciam citações de lugares confiáveis como a Mayo Clinic, e isso podia ser conferido na própria página, gerando confiança; com o tempo, esse sistema de confiança foi sendo corroído por SEO, e o problema central agora é ter sido substituído pelo AI Overview, um sistema essencialmente diferente; há um contraste nítido com a época em que existiam fontes válidas e verificáveis em tempo real
- Não são só pessoas que não usam LLM diretamente; até gerentes que trabalham profissionalmente com LLM mudam a pergunta repetidamente até obter a resposta que confirma o que querem ouvir
- Menção à psicologia básica de que as pessoas sempre gostaram de respostas dadas com confiança, mesmo sem fundamento
- Há a sensação de que a internet onde se podia pesquisar para aprender acabou; tudo virou lixo de spam SEO indigno de confiança, e com AI Overview isso tende a piorar; surge o medo de entrar numa era em que alguém pesquisa “como funciona uma impressora” e recebe algo absurdo como “um sistema de polias e cordas”, e ainda assim acredita; reflexão de que esse tipo de erro ridículo, e às vezes perigoso, já tem sido visto repetidamente
A mensagem “respostas de IA podem conter erros” seria justamente o principal ponto que se gostaria de gritar ao público em qualquer debate sobre IA; em toda discussão de ética e segurança em IA, esse ponto e o impacto em energia/clima deveriam estar no centro, pois são os dois maiores danos potenciais à humanidade se a febre da IA continuar
- O problema não é que “pode haver erros”, e sim que erros inevitavelmente acontecem; só que as pessoas não percebem isso e tratam o sistema como um oráculo onipotente, quando na prática ele é apenas um modelo probabilístico simples; até um macaco, com tentativas suficientes, teria alguma chance de escrever Shakespeare
Crítica de que o Google entendeu completamente errado o fundamento da busca; agora parece mais focado em resumos rápidos e links patrocinados do que na exatidão das respostas
- Entre 10 respostas rápidas, 6 estariam sutilmente erradas, 2 escancaradamente erradas e 1 seria francamente perigosa; haveria respostas capazes de ferir pessoas ou causar problemas legais
- Interpretação de que a estratégia da era Eric Schmidt no Google, de que “é melhor ter alguma resposta do que nenhuma”, evoluiu agora para algo como “até resposta errada é melhor do que resposta nenhuma”
A IA seria parecida com alguém que sempre responde tudo com autoconfiança infundada, o que dá poucos motivos para levá-la a sério
- O fator psicológico seria central: as pessoas percebem por sinais não verbais quando alguém está inseguro, mas a IA não emite esses sinais, e há uma confiança histórica de que respostas dadas por máquinas são corretas; por isso, a proporção de gente que adota uma postura crítica é muito baixa
- Ainda não existe nenhuma empresa de IA com coragem de dar ao próprio produto o nome de “Cliff Clavin”, brincadeira que inclui risco reputacional e outras formas de coragem
- Em resposta à pergunta “como alguém pode confiar de verdade em IA?”, há o contraponto de que, se uma empresa como o Google, que passou décadas tentando fornecer informação correta ao mundo todo, passa a oferecer isso via IA, não seria natural que as pessoas confiassem?
Em uma experiência recente com ChatGPT e código Python, houve um pedido ao chatbot para criar três soluções diferentes para excluir uma classe de logger do Gunicorn de um certo caminho de URL e comparar a velocidade de cada uma; ele forneceu código de benchmark e concluiu que regex era a opção mais rápida, mas ao executar de fato, a abordagem com tuple se mostrou mais de cinco vezes mais rápida; quando o resultado foi informado ao chatbot, ele corrigiu prontamente, dizendo “obrigado por avisar, a abordagem com tuple está certa”; apesar de ter economizado tempo por fornecer rapidamente o código de benchmark necessário, isso virou mais uma experiência de não confiar muito nos resultados do chatbot em áreas onde não se tem certeza da resposta correta