Resumo breve
- O artigo "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks", publicado na Nature Medicine em 12 de junho de 2026, afirmou que modelos generalistas de fronteira como GPT-5.2, Gemini 3.1 Pro e Claude Opus 4.6 superam ferramentas de IA médica especializadas como OpenEvidence e UpToDate AI
- OpenEvidence e UpToDate AI são ferramentas de suporte à decisão clínica usadas por médicos para buscar evidências em tempo real durante o atendimento, e já são produtos em uso no ambiente hospitalar
- Logo após a publicação, o artigo se espalhou rapidamente, e surgiram alegações de conflito de interesse porque o autor opera uma IA médica concorrente e já havia solicitado acesso à API da OpenEvidence no passado, tendo sido recusado
- Ao revalidar diretamente a metodologia, o autor do texto encontrou vários problemas estatísticos que dificultam sustentar o ranking em si
Estrutura do artigo e conclusão aparente
- A avaliação foi feita em três etapas
- Avaliação de conhecimento médico com 500 questões do MedQA
- Avaliação de alinhamento clínico com 500 questões do HealthBench
- Avaliação de 100 consultas clínicas reais (RCQ), com 12 clínicos dos EUA realizando 1.800 avaliações no total
- A conclusão foi que os modelos de fronteira superaram as ferramentas clínicas especializadas nas três avaliações, e que tamanho do modelo e método de alinhamento podem ser fatores mais importantes do que ajuste especializado por domínio
Problema de confiabilidade da avaliação
- O alpha de Krippendorff, que representa a concordância entre avaliadores, ficou entre 0,10 e 0,20 no RCQ
- Nesse indicador, 0 significa nível de concordância ao acaso e 1 significa acordo perfeito; para uso em ranqueamento, normalmente se exige pelo menos 0,67
- O gráfico central do artigo (Figure 2c), que mostra a superioridade entre modelos, foi produzido a partir da média de notas com esse baixo nível de consenso
A banca avaliadora era também o objeto avaliado
- A avaliação do HealthBench usa LLMs para julgar respostas de outros LLMs, mas a banca era composta apenas pelos três modelos que também eram avaliados: GPT-5.2, Gemini 3.1 Pro e Claude Opus 4.6
- As ferramentas clínicas especializadas foram excluídas da banca avaliadora
- O HealthBench é um benchmark criado pela OpenAI, e o GPT-5.2 da própria OpenAI foi avaliado nesse mesmo benchmark
- O viés de self-preference, em que um modelo avalia melhor a si mesmo ou modelos semelhantes, já é um fenômeno conhecido, e essa estrutura não tem mecanismo para filtrar esse viés
Problema parecido com ter visto a prova antes
- MedQA e HealthBench são conjuntos de dados públicos disponíveis na internet há bastante tempo
- Como os modelos de fronteira são treinados com enormes volumes de texto da internet, existe a possibilidade de já terem visto essas perguntas e respostas durante o treinamento
- O artigo reconhece essa possibilidade, mas não calcula quanto isso de fato pode ter influenciado os resultados
Problemas no tratamento estatístico
- As 1.704 observações em que vários modelos e vários avaliadores responderam à mesma pergunta foram tratadas como se fossem independentes entre si
- As notas oriundas da mesma pergunta são correlacionadas por causa da dificuldade daquela pergunta; ignorar isso gera pseudoreplicação, fazendo o resultado parecer estatisticamente mais robusto do que realmente é
- Separadamente, o artigo informa P=0,10 para o resultado do teste exato de Fisher ao comparar a taxa de recusa do UpToDate de 19% com a taxa de recusa de 6% do Google AI Overview
- Recalculando diretamente com os dados brutos (19/100 contra 6/100), o valor de p fica em cerca de 0,009. Pelo nível de significância de 0,05 declarado no próprio artigo, isso corresponde a uma diferença significativa, e sem divulgação do método de correção essa discrepância precisa ser explicada
O próprio ambiente de avaliação era diferente
- Os modelos de fronteira foram avaliados por API determinística com temperature 0
- As ferramentas clínicas foram avaliadas por interface de navegador. Os resultados podem variar a cada execução, e os prompts internos não são divulgados
- Respostas recusadas foram excluídas da agregação. O UpToDate recusou 19% dos casos, deixando proporcionalmente apenas notas de perguntas mais fáceis, enquanto os modelos de fronteira recusaram só 1% a 3% e mantiveram notas sobre toda a distribuição de perguntas
Com outro benchmark, o resultado muda
- Um estudo separado no medRxiv aplicou à OpenEvidence o mesmo benchmark de triagem que mostrou que o ChatGPT Health subestimava emergências reais em 51,6% dos casos (undertriage)
- A taxa de subestimação da OpenEvidence foi de 12,5%, cerca de um quarto da observada no ChatGPT Health
- Mesmo para a mesma ferramenta, o resultado pode variar muito dependendo do benchmark usado. A escolha do benchmark em si é uma variável que determina a conclusão
Por que este artigo importa agora
- A OpenEvidence já é usada diariamente por dezenas de milhares de médicos nos EUA durante o atendimento. Essa comparação não é apenas uma questão acadêmica, mas uma questão sobre qual ferramenta hospitais vão adotar hoje
- 2026 é o momento em que hospitais e seguradoras estão efetivamente fechando contratos de aquisição de IA médica. Um único artigo de benchmark pode ser usado diretamente como base para decidir contratos e adoção
- Um artigo publicado na Nature Medicine ganha autoridade e se espalha imediatamente. A reanálise que apontou falhas estruturais saiu poucos dias depois da publicação, mas nesse intervalo clínicos já haviam mudado conteúdos de treinamento
- Uma vez incorporado a decisões de compra ou diretrizes clínicas, mesmo quando defeitos aparecem, reverter contratos e práticas exige tempo e custo
- Os benchmarks de IA médica continuam surgindo em grande volume, mas a infraestrutura e a força de trabalho para revalidá-los de forma independente não acompanham esse ritmo. Não é só o problema deste artigo, mas de uma estrutura que tende a se repetir
Conclusão
- Este texto não afirma que a direção geral do artigo esteja errada
- Mas a autoavaliação da banca, a baixa concordância entre avaliadores, a possibilidade de contaminação dos dados de treinamento e erros no tratamento estatístico aparecem ao mesmo tempo. Contratos de aquisição e diretrizes clínicas não deveriam ser guiados por resultados com esse nível de acúmulo de falhas
- O artigo expressa confiança em sua conclusão, mas os dados não sustentam essa confiança. O problema não é a intenção do autor, mas a estrutura em que a certeza circula antes da validação
- Agora que a IA médica está entrando nos hospitais, antes de confiar em um único artigo de benchmark, é preciso estabelecer um sistema independente de auditoria para verificar esses estudos. Enquanto a velocidade das alegações continuar maior que a velocidade da validação, o mesmo se repetirá no próximo artigo
Ainda não há comentários.