- Um estudo internacional conjunto liderado pela União Europeia de Radiodifusão (EBU) e pela BBC revelou que quatro grandes assistentes de IA (ChatGPT, Copilot, Gemini e Perplexity) apresentam distorções ou erros em 45% dos casos ao transmitir conteúdo jornalístico
- O estudo contou com a participação de 22 emissoras públicas de 18 países e avaliou 14 idiomas e mais de 3.000 respostas, encontrando com frequência omissão ou imprecisão de fontes (31%) e erros factuais ou alucinações (20%)
- Em especial, o Gemini teve a maior taxa de problemas, com 76%, sendo a principal causa a falha em indicar a fonte
- Embora tenha havido alguma melhora em comparação com uma pesquisa anterior da BBC, ainda foram confirmados problemas sistêmicos e multinacionais
- Em meio à tendência de os assistentes de IA substituírem a busca por notícias, surgem alertas sobre o risco de enfraquecimento da confiança pública e da participação democrática
Visão geral do estudo
- Apresentado na Assembleia de Notícias da EBU (Nápoles), o estudo foi descrito como o maior experimento multinacional já realizado sobre o tema e concluiu que assistentes de IA exibem distorções consistentes em notícias, independentemente de idioma, país ou plataforma
- Instituições participantes: BBC, ARD, ZDF, CBC, NPR e outras 22 emissoras públicas do mundo
- Critérios de avaliação: precisão, indicação de fonte, distinção entre fato e opinião, fornecimento de contexto e outros indicadores centrais de ética jornalística
Principais resultados
- 45% de todas as respostas apresentaram problemas graves
- 31% tinham erros de fonte (omissão, citação incorreta ou fonte identificada de forma errada)
- 20% tinham falhas de precisão (incluindo alucinações, informações desatualizadas e desinformação)
- O Gemini teve taxa de problemas de 76%, cerca de duas vezes a dos outros modelos
- Alguns indicadores melhoraram em relação ao estudo divulgado pela BBC no início do ano, mas a taxa geral de distorção continua alta
Por que essa distorção importa
- Os assistentes de IA já se consolidaram para muita gente como uma porta de entrada para notícias que substitui mecanismos de busca
- Segundo o ‘Digital News Report 2025’ do Reuters Institute, 7% dos consumidores de notícias online usam assistentes de IA como fonte de notícias, número que sobe para 15% entre menores de 25 anos
- Jean Philip De Tender (diretor de mídia da EBU) alertou que “o problema dos assistentes de IA é um fenômeno sistêmico que ultrapassa fronteiras e idiomas e isso ameaça a confiança pública”
- Peter Archer, da BBC, enfatizou que “o potencial da IA é grande, mas a entrega de informação confiável deve vir primeiro, e é necessária uma resposta conjunta entre veículos de imprensa e empresas de IA”
Resposta e próximos passos
- A equipe de pesquisa divulgou o ‘News Integrity in AI Assistants Toolkit’ para ajudar a resolver o problema
- O material apresenta critérios para boas respostas de IA e direções para solucionar os problemas
- O objetivo é melhorar a qualidade das respostas de IA e aumentar a alfabetização midiática dos usuários
- A EBU pediu à UE e às autoridades regulatórias nacionais maior rigor na aplicação de leis relacionadas à integridade da informação e aos serviços digitais, além de propor monitoramento independente contínuo dos assistentes de IA
Pesquisa adicional e percepção do público
- Em um relatório separado, ‘Audience Use and Perceptions of AI Assistants for News’, a BBC informou que
- mais de um terço (dos adultos no Reino Unido) disseram confiar em resumos de notícias produzidos por IA, e
- há uma tendência de atribuir responsabilidade por erros não apenas à IA, mas também aos veículos de imprensa
- Isso mostra que erros de assistentes de IA também podem afetar negativamente a confiança nas marcas jornalísticas
Lista de emissoras participantes
- Bélgica (RTBF, VRT), Canadá (CBC-Radio Canada), República Tcheca (Czech Radio), Finlândia (YLE), França (Radio France),
Geórgia (GPB), Alemanha (ARD, ZDF, Deutsche Welle), Itália (Rai), Lituânia (LRT),
Países Baixos (NOS/NPO), Noruega (NRK), Portugal (RTP), Espanha (RTVE), Suécia (SVT),
Suíça (SRF), Ucrânia (Suspilne), Reino Unido (BBC), Estados Unidos (NPR)
1 comentários
Opiniões do Hacker News
Ao olhar o relatório de fato, dá para ver como os números foram calculados. A maioria dos erros é um “problema de fonte”: o assistente de IA não cita a afirmação ou, de forma surpreendente, cita a Wikipedia em vez da BBC. Além disso, o relatório não deixa claro quais modelos foram usados (embora isso seja mencionado no apêndice). Excluíram a Anthropic (que, na minha opinião, é a melhor nesse tipo de tarefa) e focaram só em Perplexity e Copilot. Também mistura o conteúdo de um relatório recente com um estudo de um ano atrás, sem contexto, deixando de fora o fato de que muita coisa mudou. Este artigo tem vários problemas importantes
Jornalistas humanos também transmitem mal o conteúdo de white papers em algo como 85% dos casos. Considerando isso, 45% nem parece tão ruim
Também acho possível que o problema de citação seja porque o robots.txt da BBC bloqueia a maioria dos crawlers e user agents de IA
Concordo que os problemas ao interpretar texto escrito por humanos são realmente grandes. Mesmo que esta matéria não seja boa, o tipo de problema que ela aponta existe de forma séria. LLMs frequentemente interpretam mal frases individuais ou perdem o fio de quem disse o quê, mesmo nos modelos mais recentes, incluindo o GPT-5. Isso acontece especialmente quando você pede para analisar discussões escritas por humanos. Talvez esse problema seja resolvível, mas definitivamente ainda não foi totalmente resolvido
Também quero acrescentar algo à crítica de citar a Wikipedia em vez da BBC. Na verdade, o problema maior é citar artigos da Wikipedia que “nem existem”. Por exemplo, o ChatGPT colocou um link para um artigo inexistente chamado “European Union Enlargement Goals for 2040”, que também não era uma política oficial da UE. Inventou um URL inexistente, metas fictícias da UE e até políticas imaginárias
Acho que este artigo está cumprindo bem o seu papel. O papel de lançar uma manchete que as pessoas vão citar depois. Nos próximos um ou dois meses, vamos ver este link ou citações meia-boca como “95% dos projetos de IA falham” aparecendo por toda parte. POSIWID (sigla para “the purpose of a system is what it does”, ou seja, o propósito de um sistema é aquilo que ele efetivamente faz)
Fico me perguntando quantas pessoas realmente compararam resumos de IA com o texto original. Eu mesmo já comparei algumas vezes, e o resultado foi realmente péssimo. Em vez de resumir, parece que faz uma espécie de “compressão aleatória”, o que é completamente diferente de um resumo. Em casos graves, a conclusão principal acaba ficando exatamente oposta à real. Por isso, não confio mais nem um pouco em recursos de resumo por IA
Se você conferir o recurso de resumo de chamadas do Gemini, quase sempre há algum problema grave. Ontem mesmo o Gemini registrou como decidido algo sobre o qual não tínhamos chegado a acordo. E esse era justamente o ponto mais importante, então o resultado saiu completamente invertido. Às vezes seria melhor não ter resumo nenhum
“Compressão aleatória” é uma expressão perfeita. Sinto isso especialmente em resumos de e-mails ou mensagens de texto. Não capta de jeito nenhum a essência da mensagem, só extrai frases aleatórias, e em 99,9% dos casos elas não são o verdadeiro ponto central. Por isso, acabo simplesmente ignorando
Pelo que usei, isso aparece principalmente em modelos open source enxutos ou modelos mini. Em modelos SOTA de verdade, como Sonnet-4.5, Opus-4.1 e GPT-5-Thinking, esse problema quase não existe. Mas como o custo é alto demais, a maioria das empresas usa modelos baratos ou TTC não implementado por causa de custo ou velocidade
Será que isso não acontece muito porque as manchetes de notícias costumam ser clickbait? Se a IA resumir o conteúdo olhando só para o título, não é surpresa nenhuma que ela entenda errado mais da metade do texto original
Às vezes a IA simplesmente inventa coisas que não existem. Já vi citações totalmente fabricadas, incluindo título de artigo, autor e resultados, tudo sem base alguma
Pedi ao Gemini para coletar e me mostrar as notícias mais recentes, e ele inventou tudo — título, resumo e link — sem usar busca. Isso não aconteceu uma ou duas vezes, mas várias. Por isso, agora tenho receio de usar o Gemini para qualquer coisa que envolva busca na web. Como exemplo, recebi uma suposta notícia dizendo que “pesquisadores do Google DeepMind e de Harvard propuseram um novo método para avaliar a ‘teoria da mente’ em LLMs”, mas o link não funcionava e o título também não aparecia em buscas
Se você olhar dez respostas do Gemini, mais de sete vão estar erradas. Às vezes ele confunde nomes de produtos ou informa horários de funcionamento incorretos. Por exemplo, ele disse que um restaurante onde fui com minha esposa abria de segunda a sexta, mas na realidade funcionava só de terça a sábado, e demos viagem perdida. Em outras ocasiões, ele chega a inventar dezenas de “fatos” completamente absurdos. Minha esposa agora confere tudo com mais cuidado, e até o próprio dono do lugar brinca: “se o Gemini disse X, então na prática deve ser Y”
Não estou conseguindo reproduzir exatamente isso. Fiquei curioso sobre qual prompt foi usado. Quando peço as principais notícias do dia, ele usa a busca do Google e fornece links reais
Também fiquei curioso sobre qual versão do Gemini foi usada e se foi chamada diretamente pela API ou via web app, como Gemini ou AI Studio. Nem todos os apps de LLM estão com recursos de busca web/notícias ativados, então o resultado pode mudar completamente dependendo do acesso. Claro, se a IA não tiver permissão para pesquisar na web, ela deveria dizer isso em vez de inventar links falsos. E se a busca na web estava ativada e mesmo assim ela não pesquisou direito, isso por si só já é um problema
Numa situação dessas, dá vontade de perguntar se não é melhor simplesmente entrar num site de notícias comum e ler as manchetes diretamente
Mesmo quando a IA fornece links, você precisa clicar neles e verificar por conta própria se o conteúdo realmente corresponde ao que foi descrito
Fico me perguntando se os evangelistas de LLM percebem o quanto os usuários ficam decepcionados quando eles racionalizam imediatamente o desempenho precário dessas ferramentas. Isso já não parece uma postura sobre limitações técnicas, mas quase uma questão de “fé”. Como se exigir "capacidade" fosse um pedido exagerado
Acho que muitos desses evangelistas acabam sendo fundadores de startups que só mostram protótipos feitos com IA e vão desmoronar quando o entusiasmo acabar (ou desenvolvedores que os seguem e se sentem espertos por isso). É decepcionante como a cultura do “finge até dar certo” está espalhada demais no setor de tecnologia
Eu considero que já vivemos numa sociedade 'pós-verdade', onde não importa se o que se diz é verdadeiro ou não; o único critério é se aquilo aumenta o próprio poder ou o poder daquilo que a pessoa está promovendo
Quem investiu numa estrutura ponzi circular vai defender cegamente qualquer fracasso de LLM. Essas pessoas tentam acreditar de verdade na ilusão de que uma distribuição sem sentido de tokens é “cognição de máquina”, ou racionalizam que, mesmo sem ser perfeito, é útil na maior parte do tempo. Esse tipo de fantasia está sendo usado coletivamente para sustentar avaliações de trilhões de dólares
Isso é um problema só dos LLMs? Acho que, no geral, a sociedade já abandonou há muito tempo a ideia de que 'capacidade' importa de verdade. Dá para ver isso em coisas como dar diploma a alunos que não conseguem ler no nível do 5º ano, ou terceirizar call centers para lugares onde o inglês é fraco
Concordo em parte, mas sinto que ultimamente a discussão está sempre escorregando para crítica à mídia ou para outros lados. Também acho este resultado de pesquisa bastante suspeito. Como não é um paper, mas um estudo encomendado e pago à Ipsos, não entendo por que o padrão é tão baixo. No mínimo, deveriam informar quais modelos foram usados, valores de search R@k, métricas de precisão de resumo como BLEU/ROUGE e métricas de avaliação humana. Se nem isso existe, então considero que esse resultado não serve para nada, nem dentro nem fora da área
A partir da página 10 do PDF há exemplos concretos dos erros: relatório oficial da BBC
Exemplo: o ChatGPT citou um artigo inexistente da Wikipedia chamado “European Union Enlargement Goals for 2040”. Na UE real, não existe nenhuma política com esse nome. Além do URL falso, inventou metas e políticas da UE
É preciso sempre lembrar que, se você deixar um LLM resumir reuniões, e-mails ou comunicações, essa pessoa não vai receber a mensagem real
Isso me assusta. Vai além de terceirizar o pensamento; é sabotar por conta própria a única ferramenta insubstituível. Tive uma experiência parecida: pensei em pedir à IA para analisar o histórico de edição de um documento com rastreabilidade ruim, mas desisti por falta de tempo. Se eu tivesse pedido, provavelmente teria recebido um histórico muito convincente, mas em vez de me dizer quais mudanças realmente ocorreram, eu teria acabado aceitando uma versão distorcida ou até invertida dos fatos. Não seria falta de conhecimento, mas o oposto: anti knowledge
Se isso for verdade, seria um alerta importante, mas minha experiência real tem sido diferente. Faço reuniões de vendas todos os dias e recebo resumos por várias ferramentas de IA. Quando verifico os resumos salvos no CRM, quase sempre estão muito corretos. Consigo validar porque eu mesmo participei das reuniões
Estamos usando o MS Copilot em reuniões há meses, e ele resume muito bem quem disse o quê e quem ficou responsável por qual tarefa. Tem sido extremamente útil e, na minha experiência, bastante claro
Acho o Kagi News bastante preciso. Ele resume junto com a fonte original e detalhes importantes. O resumo por IA ajuda a ter uma noção se vale a pena ler a matéria inteira. Ainda assim, sempre verifico os fatos importantes por conta própria
Fico em dúvida até onde dá para ir na verificação de fatos. Para saber se um resumo está realmente correto, seria preciso ir até o local, fazer a apuração pessoalmente ou ler os papers e referências de cada área; no fim, em algum ponto a confiança acaba sendo inevitável
Também tive experiência com um projeto parecido, resumindo artigos de RSS, e obtive resultados bem bons. Especialmente quando usava modelos focados em "reasoning", os resultados melhoravam bastante
O Kagi News funciona colocando várias matérias no contexto e fazendo um resumo em cima disso. Isso é diferente da situação do post original, que era “pedir a um LLM que forneça notícias usando busca na web”
Também existe este serviço: rawdiary.com
Concordo sobre o Kagi News, e o Particle News também me pareceu bom. Só que o Particle News recebeu investimento da The Atlantic e chegou a dar a matérias desse veículo o espaço de "Featured Article". Eles até mostram elementos gráficos para distinguir viés, mas isso não se aplica ao Featured Article. Imagino que possa haver casos parecidos com outros investidores, mas a promoção ligada à Atlantic é um caso relativamente recente
O relatório afirma que só foram usados as versões gratuitas/consumer de ChatGPT, Copilot, Perplexity e Gemini. Como o Copilot usa modelos do ChatGPT, isso significa que Grok e outros nem entraram no teste
Estou usando o DeepSeek V3 para análise automatizada de notícias de cripto, e no relatório de acurácia mais recente obtive 98,5%. Por isso, os resultados desta matéria me surpreendem um pouco
Meu relatório de acurácia
Metade das perguntas da matéria trata de temas politicamente sensíveis. É interessante, mas acho que, para avaliar também como a IA se sai em notícias gerais menos carregadas, seriam necessárias perguntas mais genéricas. Algumas das perguntas me parecem mais adequadas para um modo de pesquisa aprofundada do que para respostas rápidas. Afinal, as próprias notícias muitas vezes estão cheias de opiniões sobre qual seria a resposta certa