Divergência entre LLMs de fronteira em checagem de fatos no mundo real

(lenz.io)

1 pontos por GN⁺ 2026-05-29 | 1 comentários | Compartilhar no WhatsApp

Cinco LLMs de fronteira divergiram em 67% das avaliações de 1.000 alegações enviadas por usuários reais, e houve concordância total entre os 5 em 33% dos casos
A decisão da maioria não é um rótulo de verdade, mas um critério para medir divergência; nos 67% sem unanimidade, pelo menos 1 modelo necessariamente errou
Em uma rubrica de 4 níveis, houve divergência substancial de 34%, com separação de 2 ou mais níveis, e polarização extrema entre True e False em 21%
A taxa de concordância de rótulos por pares de modelos ficou entre 53% e 75%, com a maior concordância entre Gemini 3 Pro e sua versão com Search, que compartilham o mesmo modelo-base
Os dados foram extraídos de alegações reais recentes do Lenz e medidos sem rótulos de verdade nem juiz LLM, revelando mais a instabilidade da estrutura de julgamento do que a acurácia

Com que frequência os julgamentos divergiram em alegações reais

Entre as 1.000 alegações analisadas, em 672 casos, 67% (IC 95%: 64–70%) os 5 modelos de fronteira não chegaram ao mesmo julgamento
- Em 328 alegações, 33% (IC 95%: 30–36%), os 5 modelos emitiram exatamente o mesmo julgamento
- Em 224 alegações, 22% (IC 95%: 20–25%), apenas 1 modelo emitiu um julgamento diferente
- Em 316 alegações, 32% (IC 95%: 29–35%), 2 modelos emitiram julgamentos diferentes
- Houve 132 divisões, 13% (IC 95%: 11–15%), sem maioria estrita, como 2-2-1 ou 2-1-1-1
- Em 448 casos, 45% (IC 95%: 42–48%), pelo menos 2 modelos emitiram julgamentos diferentes
A decisão da maioria não é um indicador substituto de precisão, mas um critério estrutural para contar divergências
- A maioria pode estar errada, e o modelo na minoria pode estar certo
- Se apenas um dos quatro buckets de julgamento for considerado correto, então em 67% das alegações sem unanimidade pelo menos 1 modelo está errado
- Nos 45% que incluem divisões 3-2, 3-1-1 e sem maioria, pelo menos 2 modelos estão errados
- Nos 13% sem maioria, nenhum bucket alcança 3 votos, então pelo menos 3 modelos estão errados
- Mesmo dentro dos 33% em que os 5 modelos concordaram, pode haver pontos cegos compartilhados
O nível de concordância do painel foi Krippendorff’s α (ordinal)=0,639
- Os julgamentos dos modelos não foram próximos do aleatório, mas também não foram consistentes o suficiente para tratar os 5 modelos como avaliadores intercambiáveis
- Foi usado α ordinal porque True / Mostly True / Misleading / False são categorias ordenadas

Diferenças de nuance e divergência substancial

Entre as 1.000 alegações, em 343 casos, 34% (IC 95%: 31–37%) pelo menos dois modelos ficaram separados por 2 ou mais níveis na rubrica de 4 etapas
- A diferença entre True e Mostly True é tratada como uma diferença de nuance, mais próxima de um ajuste de confiança
- A diferença entre True e False é tratada como uma divergência substancial, em que a própria resposta entra em conflito
A medição foi calculada pela distância máxima entre pares de buckets entre os 5 julgamentos
- A ordem dos julgamentos é True (0) → Mostly True (1) → Misleading (2) → False (3)
- Distância 0: 328 casos, 33% (IC 95%: 30–36%), quando os 5 modelos escolheram o mesmo bucket
- Distância 1: 329 casos, 33% (IC 95%: 30–36%), correspondente a diferenças de nuance como True ↔ Mostly True
- Distância 2: 132 casos, 13% (IC 95%: 11–15%), uma divergência substancial como True ↔ Misleading ou Mostly True ↔ False
- Distância 3: 211 casos, 21% (IC 95%: 19–24%), uma divisão extrema entre True ↔ False
A distância entre buckets não é uma medida precisa da magnitude do erro, mas um indicador grosseiro
- Há uma simplificação ao tratar True / Mostly True / Misleading / False como uma escala ordinal com intervalos iguais
- Uma diferença de 2 níveis também pode surgir de ambiguidade da rubrica, diferenças de recorte temporal ou interpretação distinta de “Misleading”

Taxa de concordância entre modelos

A taxa de concordância de rótulos entre pares dos 5 modelos ficou na faixa de 53% a 75%
- A maior concordância foi entre Gemini 3 Pro × Gemini 3 Pro + Search, com 75% (IC 95%: 72–77%), e os dois compartilham o mesmo modelo-base
- A menor concordância foi de 53% (IC 95%: 50–56%), observada em três pares
Principais taxas de concordância por par
- GPT-5.4 × Claude Opus 4.7: 65% (IC 95%: 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65% (IC 95%: 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60% (IC 95%: 57–63%)
- GPT-5.4 × Sonar Pro: 60% (IC 95%: 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53% (IC 95%: 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (IC 95%: 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58% (IC 95%: 55–61%)
- Gemini 3 Pro × Sonar Pro: 53% (IC 95%: 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58% (IC 95%: 55–61%)

Tendências de julgamento por modelo

Distribuição dos julgamentos
- O grau em que cada modelo se concentrou nos polos True/False e o quanto usou os buckets intermediários Mostly True/Misleading variou entre eles
- Como não há rótulos de verdade, não é possível separar o efeito das tendências prévias dos modelos das características das alegações
- GPT-5.4: True 42% (IC 95%: 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
- Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
- Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
- Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
- Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
Concordância com a maioria do restante do painel
- A taxa em que cada modelo emitiu o mesmo julgamento que a maioria estrita formada por pelo menos 3 dos outros 4 modelos ficou entre 69% e 81%
- Esse valor representa alinhamento com os pares nesse corpus, não acurácia
- O cálculo inclui apenas alegações em que os outros 4 modelos formaram uma maioria de 3/4 ou mais; por isso, o n elegível varia por modelo
- GPT-5.4: 81% (IC 95%: 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70% (IC 95%: 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77% (IC 95%: 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76% (IC 95%: 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69% (IC 95%: 66–73%), eligible n=675, ineligible=325

Divergência por área

O denominador por área é o número de alegações naquela área, e em quase todas as áreas a taxa de divergência ficou bem acima da metade
- Finance: 75, divergência arbitrária 67% (IC 95% 55–76%), divergência substantiva 39% (28–50%), sem maioria 20% (13–30%)
- General: 179, divergência arbitrária 68% (60–74%), divergência substantiva 40% (33–48%), sem maioria 12% (8–17%)
- Health: 171, divergência arbitrária 71% (64–78%), divergência substantiva 29% (23–36%), sem maioria 12% (8–17%)
- History: 131, divergência arbitrária 53% (44–61%), divergência substantiva 24% (17–32%), sem maioria 13% (8–20%)
- Legal: 48, divergência arbitrária 77% (63–87%), divergência substantiva 40% (27–54%), sem maioria 19% (10–32%)
- Politics: 168, divergência arbitrária 70% (62–76%), divergência substantiva 38% (31–46%), sem maioria 8% (5–13%)
- Science: 151, divergência arbitrária 68% (60–75%), divergência substantiva 36% (29–44%), sem maioria 21% (15–28%)
- Tech: 77, divergência arbitrária 69% (58–78%), divergência substantiva 31% (22–42%), sem maioria 8% (4–16%)
A classificação por área reflete os padrões de tráfego da Lenz e não é o resultado de uma amostragem uniforme de todas as alegações passíveis de checagem de fatos

Consenso por bucket de veredito

O painel quase não convergia quando chegava aos buckets intermediários
- Nos vereditos majoritários de Mostly True e Misleading, a unanimidade ficou em no máximo cerca de 5% em cada caso
- As taxas de unanimidade nos vereditos majoritários de True e False foram de 47% e 43%, respectivamente
Com base em alegações em que uma maioria estrita de 3/5 ou mais emitiu aquele veredito
- True: eligible n=438, unanimidade 47% (IC 95% 42–51%), maioria de 3–4 votos 53% (49–58%)
- Mostly True: eligible n=76, unanimidade 0% (IC 95% 0–5%), maioria de 3–4 votos 100% (IC 95% 95–100%)
- Misleading: eligible n=74, unanimidade 5% (IC 95% 2–13%), maioria de 3–4 votos 95% (87–98%)
- False: eligible n=280, unanimidade 43% (IC 95% 37–49%), maioria de 3–4 votos 57% (51–63%)
As 328 alegações em que os 5 modelos deram exatamente o mesmo veredito também se concentraram nos extremos
- True: 204, 62% entre os casos unânimes (IC 95% 57–67%)
- Mostly True: 0, 0% (IC 95% 0–1%)
- Misleading: 4, 1% (IC 95% 0–3%)
- False: 120, 37% (IC 95% 32–42%)
Um resultado relacionado também aparece em um estudo de ablação de uma única família Llama-3 sobre 17.856 alegações do PolitiFact, Schwab et al. 2025, no qual os erros dos modelos de veredito de fact-checking se concentram em rótulos mais refinados

Dataset e critérios de exclusão

O objeto da análise é de 1.000 alegações
- São as alegações mais recentes, entre solicitações reais de usuários enviadas à plataforma de fact-checking Lenz, que passaram pelos critérios de exclusão
- Todas as alegações foram geradas após 15 de fevereiro de 2026
- O próprio veredito da Lenz não foi usado na análise, e a análise não compara Lenz com os modelos de fronteira, medindo apenas a divergência entre os modelos de fronteira
O campo atomic_claim não é o texto original inserido pelo usuário, mas uma proposição neutra e verificável organizada pela etapa de framing da Lenz
- Por exemplo, a entrada “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” é convertida na proposição “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
Alegações excluídas
- alegações marcadas como privadas pelo remetente
- alegações enviadas por funcionários da plataforma, contas internas ou via agentes/API
- alegações com estado editorial pending ou hidden
- alegações sinalizadas automaticamente na etapa de triagem de PII da Lenz por incluírem informações pessoais sobre indivíduos que não são figuras públicas
- alegações quase duplicadas com distância cosseno de até 0.2 entre atomic_claim embeddings de 1536 dimensões do OpenAI text-embedding-3-small
- alegações em que ao menos um dos 5 modelos não conseguiu produzir um veredito parseável mesmo após uma nova tentativa
- alegações com mais de 180 dias na data da coleta
Entre os quase duplicados, no caso de proposições dependentes do tempo foi escolhida a alegação mais recente; nos demais casos, foi usada como linha representativa a alegação existente com mais visualizações na Lenz

Metodologia

Modelos e prompt
- Modelos paramétricos: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Modelos com busca aumentada: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Cada alegação foi apresentada junto com uma data de referência “as of YYYY-MM-DD” correspondente à data de envio
- Os modelos eram obrigados a escolher exatamente uma entre True, Mostly True, Misleading e False

Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.

Não foi oferecida opção de abstenção, e a escolha forçada manteve a comparação entre modelos simétrica
Configurações de chamada e pontuação
- Todos os modelos receberam o mesmo placeholder de sistema . e o mesmo template de prompt de usuário usr_v2
- Não foram usados schema de saída estruturada, schema de chamada de ferramenta, seed, top-p nem controle de logit-bias
- Quando suportado, foi solicitado decoding determinístico com temperature=0.0
- GPT-5.4 e Claude Opus 4.7 foram chamados sem temperature explícita porque os adaptadores do provedor rejeitavam configuração customizada de temperature
- GPT-5.4, Claude Opus 4.7 e Sonar Pro tiveram o comprimento de saída limitado a 16 tokens, enquanto Gemini 3 Pro e Gemini 3 Pro + Search usaram limite de 1024 tokens
- Gemini 3 Pro + Search ativou grounding com Google Search, e Sonar Pro foi tratado como um modelo com busca aumentada via API com suporte a busca da Perplexity
- Após normalização, a saída só era considerada parseável se correspondesse exatamente a um dos quatro rótulos
- Não foram usados LLM judge nem rótulos de referência gold, e todas as métricas derivam da concordância direta entre os rótulos parseados dos 5 modelos
Tratamento estatístico
- O corpus consiste nas 1.000 alegações eligible mais recentes enviadas a uma única plataforma de fact-checking e não é uma amostra probabilística de uma população mais ampla
- Os intervalos de confiança de Wilson de 95% são intervalos binomiais nominais sob um modelo em que cada alegação é extraída independentemente de um fluxo semelhante de envios eligible sujeito às mesmas regras de seleção
- As alegações da Lenz se concentram em torno de eventos noticiosos, e o mesmo usuário pode enviar várias alegações relacionadas em uma única sessão, portanto não há independência nem distribuição idêntica
- Em um modelo de cluster mais honesto, a variabilidade amostral real pode ser maior do que a indicada pelos intervalos de Wilson
- Não foram realizados testes de significância entre modelos; as taxas de concordância em pares e os ICs de Wilson de 95% são apresentados como estatísticas descritivas

Reprodutibilidade e materiais públicos

Os dados completos por claim são disponibilizados em CSV
- Cada linha inclui ID da claim e URL, texto da atomic claim, 5 vereditos de fronteira, distância máxima entre pares de buckets, área e data de criação
- Se o autor posteriormente excluir a claim ou torná-la privada, algumas páginas podem deixar de estar disponíveis
O PDF é uma renderização independente de navegador para leitura offline, citação e hospedagem de preprint no estilo arXiv
O snapshot é a v1.0 e a data de referência dos dados é 21 de maio de 2026
- A URL de arquivo https://lenz.io/research/llm-disagreement/v1.0 disponibiliza permanentemente o snapshot v1.0
- Isso mantém a estabilidade das citações mesmo que a URL geral mude para versões futuras
O registro permanente e a citação são fornecidos em doi.org/10.5281/zenodo.20344847

Limitações

O limite inferior de erro baseado no princípio das gavetas de Dirichlet é um limite inferior para divergência de rubric, não um veredito de que um modelo específico está factualmente errado em uma determinada claim
- Como apenas um dos quatro buckets pode estar correto, qualquer divergência implica pelo menos um veredito inconsistente
- Mas não é possível saber qual modelo errou em qual claim
A ordenação da distância entre buckets é uma simplificação
- True / Mostly True / Misleading / False são tratados como uma escala ordinal com intervalos iguais
- Uma diferença de 2 níveis pode decorrer de ambiguidade no rubric, diferenças no recorte temporal ou diferenças de interpretação de “Misleading”, e não necessariamente significa um erro factual maior
A ambiguidade dos vereditos não é um problema exclusivo dos LLMs, mas também uma propriedade da própria tarefa
- O AVeriTeC é um corpus de 4.568 claims revisadas em múltiplas rodadas com base em 50 organizações de fact-checking, e o acordo entre anotadores para os vereditos fica em κ=0.619
- Parte da divergência entre modelos de fronteira reflete características do próprio rótulo, que é difícil até para avaliadores humanos
O snapshot está fixado em uma data específica e em versões específicas dos modelos
- LLMs de fronteira são não determinísticos, então os números podem variar até certo ponto mesmo ao executar novamente com o mesmo modelo e prompt
- Reexecutar com novos modelos ou prompts diferentes pode alterar os números de forma mais significativa
Modelos com suporte de busca podem ter consultado fontes no momento da inferência, mas o que foi pesquisado não é controlado nem auditado

Pesquisa anterior e próximos passos

Yang & Wang (2026) mostram que modelos de fronteira de topo divergem em 16~38% dos itens de MMLU-Pro e GPQA mesmo quando acertam a mesma acurácia total
O AVeriTeC é apresentado como um benchmark rigoroso de anotação humana para verificação de claims do mundo real
Como corpus maior de fact-checking, há 17.856 claims do PolitiFact em uma configuração de ablação de uma única família Llama-3
O corpus Lenz consiste em envios reais de usuários dos últimos 180 dias, é indexado apenas no lenz.io e nunca foi pareado com vereditos padrão em conjuntos públicos de treinamento
O estudo seguinte pretende rotular manualmente todo esse mesmo corpus e usar esses rótulos como verdade de referência para avaliar os 5 modelos de fronteira e também o veredito do próprio Lenz
O objetivo não é um leaderboard, mas analisar onde o painel de fronteira se afasta do consenso humano, onde o Lenz se afasta de ambos e quais categorias provocam divergência

Ética e uso de dados

Os campos usados foram apenas o texto público da atomic claim e a data de criação
- Nenhuma informação pessoal é usada
- Claims privadas e claims de funcionários foram excluídas
- Aos modelos de fronteira são fornecidos apenas o texto da claim e a data de referência, sem identidade do autor nem sinais de análise
Se o autor mais tarde tornar a claim privada ou excluí-la, ela poderá ser removida do snapshot e de downloads futuros

Exemplos em que o painel de fronteira divergiu fortemente

O apêndice apresenta as 20 claims com maior diferença entre o bucket mais alto e o mais baixo
- São claims com divergência substancial em que pelo menos um modelo ficou 2 ou mais níveis distante de outro
- Elas são ordenadas por distância máxima entre pares de buckets em ordem decrescente, com desempate priorizando casos sem maioria, seguido de hash estável do ID da claim
Casos representativos de distância 3 · sem maioria
- A claim de que Muthiah Muralidaran disse que a Indian Premier League é puro negócio e que pitches planas são preparadas porque partidas de baixa pontuação são entediantes para patrocinadores: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- A claim de que, em 2025, o active portfolio do World Bank na Nigeria ultrapassa US$ 16,4 bilhões: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- A claim de que pessoas que preferem músicas com pouco conteúdo emocional positivo tendem a ter inteligência mais alta: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- A claim de que hostels em Kota, Rajasthan, costumam usar ventiladores de teto em formato de gaiola como medida de prevenção ao suicídio estudantil: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- A claim de que, em 6 de maio de 2026, muçulmanos de vários países se reuniram no distrito de Hooghly, em West Bengal, India: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

1 comentários

GN⁺ 2026-05-29

Opiniões do Hacker News

O prompt usado foi o seguinte: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
A lista de afirmações está em https://lenz.io/research/llm-disagreement/data.csv, e foi colocada no Datasette Lite para facilitar a exploração. Um exemplo de divergência está em https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
A afirmação “Todas as amêndoas são cultivadas no estado da Califórnia, nos EUA” é falsa, mas só o Opus 4.7 respondeu “misleading”. Como incluíram “mostly true” e “misleading”, além da regra de “proibido explicar”, a força do argumento enfraquece
Um exemplo melhor é “Solicitações de visto egípcio incompletas são uma das razões mais comuns para a recusa de pedidos de visto para o Egito”, em que os modelos se dividiram entre “true” e “mostly true”, mas pela própria expressão “among the most”, as duas respostas significam praticamente a mesma coisa
Um exemplo ainda mais decisivo é “Em 18 de maio de 2026, a Ucrânia realizou um ataque com drones a Moscou, na Rússia”: sem ferramenta de busca, a única resposta correta seria “não é possível verificar”, mas essa opção não existia, e as respostas se dividiram entre true e false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
- Se não deram a cada avaliador definições de True / Mostly True / Misleading / False, eu consideraria falsa a própria afirmação do texto de que “para cada alegação existe apenas uma categoria correta”
  Algumas alegações podem ser ao mesmo tempo “misleading” e true ou false. Também não está claro em qual categoria entraria algo “majoritariamente falso”
  Também não há critério para quanto uma afirmação precisa estar errada para passar de “mostly true” para “false”. No fim, em vez de medir compreensão factual, isso também acaba testando como o modelo define mostly e misleading, então dizer que os modelos têm uma divergência fundamental sobre os fatos em si é exagero
- Outro erro fatal é não terem tentado medir a variância interna dos modelos
  Quando se conecta uma avaliação rigorosa ao mundo real, chamadas de ferramentas como busca na web carregam problemas de infraestrutura, falhas temporárias e toda sorte de não determinismo
  Deveriam ter mostrado métricas separando 3 modelos sem busca e os agentes com busca. Para alegações factuais recentes, posteriores à data de corte de conhecimento, modelos sem busca praticamente não têm utilidade, e sem uma opção de “não sei”, o resultado fica quase totalmente inválido. Como não podem dizer que não sabem, acabam chutando uma resposta plausível
  Também concordo que a escolha forçada e as variações “fracas/fortes” inflacionam os números do título. Para fazer esse tipo de distinção, seria preciso um prompt bem mais rigoroso, e provavelmente também exemplos em contexto (ICL) para não deixar para o modelo decidir sozinho o que significa “mostly”
- Se “a maioria” significa cerca de 51% segundo a Wikipedia[1], não entendo como 51% poderia ser considerado próximo de “todos”, a ponto de “misleading” ser uma resposta válida
  Fico me perguntando se deixei passar alguma coisa
  [1]: https://en.wikipedia.org/wiki/Almond#Production
- Eu já tinha a impressão de que o Opus 4.7 dá mais respostas com ressalvas do que os outros modelos, e isso realmente estava certo
  claude-opus-4-7 ficou em 451 de 1000, ou 45,1%; sonar-pro, 39,1%; gpt-5.4, 27,7%; gemini-3-retrieval, 12,9%; e gemini-3-pro, 6,0%

A consulta do Datasette está aqui: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

Se você vai usar LLM como se fosse um oráculo, não acho que esse prompt seja irracional. LLMs são vendidos como gênios, e as pessoas também os tratam assim, especialmente porque a IA na ficção científica costuma ser retratada como algo excessivamente preciso
Se fosse uma ferramenta perfeita com “inteligência de nível genial”, ela deveria responder corretamente

Na afirmação “vida extraterrestre existe em algum lugar do universo”, GPT-5.4 e Opus 4.7 responderam Misleading, enquanto Gemini 3, Gemini 3 (Retrieval) e Sonar Pro responderam FALSE
É uma alegação factual estranha. A resposta real é ninguém sabe ao certo, mas essa opção não existe
- É ainda mais estranho dizer que essa divergência mostra um problema. Se você pedisse a 5 humanos com muito conhecimento sobre esse tema para escolher a resposta certa em múltipla escolha, é bem provável que divergiriam muito mais do que esses 5 LLMs
  Isso não quer dizer que alucinação não seja um problema, mas esta é uma péssima forma de testá-la
- Entre as opções dadas, “Misleading” provavelmente é a melhor. Porque apresenta como fato algo que não foi provado, embora seja bastante plausível
  Ainda assim, deveria haver uma categoria unknown ou undecidable
- Esse padrão continua aparecendo, e como benchmark isso parece muito fraco. Não sustenta em nada as conclusões que eu esperava
- Então aqui misleading não seria a escolha correta?
- Não entendo como “misleading” pode substituir “unknown”
A parte de que “isto não é um item de benchmark com gabarito público, mas alegações que usuários reais pediram para verificar em uma plataforma de fact-checking” é boa
Mas, a menos que os autores deixem claro exatamente quanto usaram LLMs para escrever e montar o próprio relatório, não sei o quanto isso é significativo. O relatório chega a ter uma seção “11. Ethics & data use” e trata de temas parecidos com a suposta infalibilidade dos LLMs, mas nunca menciona se usaram LLMs na produção do relatório
- A coleta e o processamento dos dados foram feitos manualmente, e LLMs ajudaram na redação inicial do relatório. Antes da publicação, tudo foi revisado por humanos
Acho que todos podem concordar que é TRUE que este experimento tem falhas em vários aspectos
Ainda assim, é um ótimo exercício para identificar erros comuns que as pessoas cometem ao usar LLMs. Parece uma boa pergunta para entrevista de emprego de prompt engineering
Os modelos estão ficando mais humanos a cada dia
- Hoje em dia muitos humanos também não conseguem chegar a um consenso sobre o que é fato. Parece estar piorando, e não sei bem qual seria a solução
Por causa da lei de Goodhart, esse “benchmark” vai se tornar sem sentido em poucos dias, no máximo em algumas semanas
Ele será reabsorvido no treinamento e vai parecer “resolvido”, mas isso não significará o surgimento de raciocínio; só significará um aumento estatístico na aparência de correção, porque um novo “problema” foi iluminado. E depois disso vai haver alvoroço dizendo que isso é um enorme “avanço” que “vai mudar tudo”
Acrescento que talvez eu tenha, talvez não tenha, formação em estratégia corporativa e PR
- Esse efeito existe, mas não é fatal. Também há muitos benchmarks privados baseados em tráfego real de produto, e existem problemas públicos não contaminados
  Em geral, o pessoal dos laboratórios sabe o que está fazendo e não desconhece esse tipo de problema
- A inteligência humana não é igual? Há muitas pessoas inteligentes que conheço que também mantêm crenças sem um valor de verdade claro
Não sei por que Grok foi excluído. Como a diferença filosófica na forma como Grok é treinado foi tornada pública, teria sido um ponto de dado interessante
Dá para debater o dia inteiro sobre essa diferença, mas é uma pena terem perdido a oportunidade de observá-la objetivamente
- Como o título diz “Frontier”, Grok ficaria de fora
  O Grok foi treinado para ter os vieses de que muita gente gosta, mas não é um modelo pensado para ser preciso
- Concordo. Teria sido divertido ver o quanto pior Grok se sairia
Não vejo o que isso mostra que já não soubéssemos. LLMs não conseguem dar respostas precisas a perguntas sobre dados que não estão no conjunto de treino
Não parece ter muito conteúdo aí
- LLMs também podem dar respostas imprecisas a perguntas sobre dados que estão no conjunto de treino, e essa é a natureza das redes neurais. Só que a chance disso aumenta quando os dados não estão no conjunto de treino
- Infelizmente, a maioria das pessoas não sabe disso e trata LLMs como se fossem cérebros superpoderosos que sabem tudo e conseguem fazer tudo
- Então isso mostra que esses modelos usam conjuntos de treino muito diferentes e exibem alta confiança mesmo quando não deveriam estar confiantes
  Em uma pergunta como “enxaguante bucal é eficaz?”, parece razoável supor que exista alguma fonte sólida de dados, como um periódico médico
- Com prazer ele vai pesquisar por você e te dar como resposta o comentário mais votado do Reddit
  Isso é pior ainda
Não entendo por que todo mundo tem tanta obsessão em fazer LLMs fazerem fact-checking
Essa tecnologia não é para isso. Em certas situações pode até funcionar mais ou menos, mas isso não faz dela a ferramenta adequada
É como comprar uma geladeira para guardar roupas
- Nietzsche talvez dissesse que isso não é uma ilusão sobre a verdade, mas uma ilusão sobre o conforto
  O último homem quer uma máquina que diga “factualmente incorreto” ou “factualmente correto”. Porque quer tornar pequeno o bastante o abismo de não existir uma verdade última para conseguir dormir ao lado dele
- As pessoas fazem perguntas para obter respostas. Pessoalmente, isso me parece bem importante. Especialmente quando mecanismos de busca começam a empurrar respostas de LLM
- Mas as pessoas estão usando isso assim na prática. Então qual é exatamente o ponto?
Fiz isto para fact-checking 100% local em CPU: https://news.ycombinator.com/item?id=48301003
- Sem artigo, benchmark, nem sequer um README escrito por humano, por que eu deveria confiar nisso?

Divergência entre LLMs de fronteira em checagem de fatos no mundo real

Com que frequência os julgamentos divergiram em alegações reais

Diferenças de nuance e divergência substancial

Taxa de concordância entre modelos

Tendências de julgamento por modelo

Distribuição dos julgamentos

Concordância com a maioria do restante do painel

Divergência por área

Consenso por bucket de veredito

Dataset e critérios de exclusão

Metodologia

Modelos e prompt

Configurações de chamada e pontuação

Tratamento estatístico

Reprodutibilidade e materiais públicos

Limitações

Pesquisa anterior e próximos passos

Ética e uso de dados

Exemplos em que o painel de fronteira divergiu fortemente

Leituras relacionadas

1 comentários

Opiniões do Hacker News