OpenAI o1 diagnosticou corretamente 67% dos pacientes de emergência, enquanto médicos de triagem ficaram em 50% a 55%

(theguardian.com)

1 pontos por GN⁺ 2 시간 전 | 1 comentários | Compartilhar no WhatsApp

Em um estudo de Harvard, o modelo de raciocínio o1 da OpenAI mostrou maior precisão diagnóstica do que médicos humanos na triagem inicial do pronto-socorro, e os LLMs foram avaliados como tendo superado a maioria dos benchmarks de raciocínio clínico
Em um experimento com os prontuários eletrônicos padronizados de 76 pacientes atendidos em um pronto-socorro de Boston, o o1 produziu diagnósticos corretos ou muito próximos em 67% dos casos, enquanto 2 médicos humanos registraram 50% a 55%
Quando foram fornecidos mais detalhes, a precisão da IA subiu para 82%, e especialistas humanos ficaram entre 70% e 79%, mas essa diferença não foi estatisticamente significativa
A IA também superou 46 médicos em tarefas de planejamento de tratamento de longo prazo, como terapia com antibióticos ou planejamento de cuidados de fim de vida; em 5 casos clínicos, a IA marcou 89%, contra 34% dos médicos humanos usando materiais convencionais
O estudo comparou apenas dados de pacientes transmitidos por texto e não testou sinais não verbais, o que limita seu papel a algo mais próximo de uma segunda opinião baseada em documentação do que a uma substituição real de médicos

Principais resultados do experimento de triagem em emergência de Harvard

Em um estudo de Harvard, um sistema de IA apresentou desempenho superior ao de médicos humanos na precisão diagnóstica em situações de triagem na medicina de emergência
Os resultados publicados na Science vieram de um experimento que comparou respostas de centenas de médicos com respostas de IA, e especialistas independentes avaliaram que a IA mostra um “progresso genuíno” em raciocínio clínico
Os grandes modelos de linguagem (LLMs) foram avaliados como tendo “superado a maioria dos benchmarks de raciocínio clínico”
A vantagem da IA se destacou especialmente em cenários de triagem inicial em pronto-socorro, nos quais há pouca informação e é preciso decidir rapidamente

Experimento de diagnóstico com 76 pacientes de emergência

Em um experimento com 76 pacientes que chegaram ao pronto-socorro de um hospital de Boston, a IA e 2 médicos humanos leram os mesmos prontuários eletrônicos padronizados e fizeram diagnósticos
Os prontuários eletrônicos normalmente incluíam sinais vitais, informações demográficas e algumas frases de uma enfermeira descrevendo por que o paciente foi ao hospital
O modelo de raciocínio o1 da OpenAI encontrou diagnósticos corretos ou muito próximos em 67% dos casos, enquanto os médicos humanos registraram precisão de 50% a 55%
Quando mais detalhes foram fornecidos, a precisão diagnóstica da IA subiu para 82%, e especialistas humanos ficaram entre 70% e 79%, mas a diferença não foi estatisticamente significativa

Experimento de planejamento de tratamento de longo prazo

A IA também superou um grupo maior de médicos humanos em tarefas de planejamento de tratamento de longo prazo, como sugerir terapia com antibióticos ou planejar o processo de fim de vida
A IA e 46 médicos revisaram 5 estudos de caso clínico, e a IA elaborou planos significativamente melhores do que os médicos humanos que usaram materiais convencionais
As pontuações foram de 89% para a IA e 34% para médicos humanos que usaram materiais convencionais, como mecanismos de busca

Limitações do estudo e mudança de papel no ambiente médico

Este estudo comparou humanos e IA apenas com base em dados de pacientes que podiam ser transmitidos por texto
Não foi testada a capacidade da IA de interpretar sinais não verbais, como o grau de dor do paciente ou sua aparência visual
Portanto, em vez de ter substituído médicos reais de pronto-socorro, a IA desempenhou um papel mais próximo ao de um clínico que fornece uma segunda opinião com base em documentação
Arjun Manrai, que lidera o laboratório de IA da Harvard Medical School, afirmou que os resultados não significam que a IA vá substituir os médicos, mas que uma “mudança tecnológica muito profunda” está em curso e poderá remodelar a medicina
Adam Rodman, médico do Beth Israel Deaconess medical centre, em Boston, onde o estudo foi conduzido, considera os LLMs de IA uma das “tecnologias mais impactantes em décadas”
Rodman acredita que, nos próximos 10 anos, em vez de substituir médicos, a IA passará a integrar um novo modelo tripartite de atendimento, com médicos, pacientes e sistemas de IA atuando juntos

Casos clínicos e o raciocínio da IA

Em um dos casos do estudo de Harvard, o paciente apresentava embolia pulmonar e sintomas em piora
Médicos humanos entenderam que os anticoagulantes estavam falhando, mas a IA percebeu que o histórico de lúpus do paciente poderia estar causando inflamação pulmonar
A avaliação da IA foi confirmada como correta

Uso de IA médica já está se expandindo

Segundo um estudo divulgado no mês passado, cerca de 1 em cada 5 médicos nos EUA já usa IA para apoio ao diagnóstico
No Reino Unido, 16% dos médicos usam IA diariamente, e outros 15% a utilizam semanalmente
Segundo uma pesquisa recente do Royal College of Physicians, um dos usos mais comuns entre médicos britânicos é o processo de decisão clínica
A maior preocupação dos médicos britânicos era com erros de IA e riscos de responsabilização
Bilhões de dólares estão sendo investidos em empresas de IA para saúde, mas continuam em aberto as questões sobre as consequências de erros da IA
Rodman afirmou que hoje não existe um framework formal de responsabilização e enfatizou que os pacientes, no fim das contas, querem que decisões de vida ou morte e escolhas difíceis de tratamento sejam guiadas por humanos

Avaliação de especialistas externos e pontos de atenção

O professor Ewen Harrison, codiretor do Centre for Medical Informatics da University of Edinburgh, avaliou que o estudo é importante e que esses sistemas já não estão apenas no nível de passar em provas de medicina ou resolver casos artificiais de teste
Harrison considera que a IA começa a parecer uma ferramenta útil de segunda opinião para clínicos, especialmente quando é preciso considerar um espectro mais amplo de diagnósticos possíveis e evitar deixar passar algo importante
O Dr. Wei Xing, da School of Mathematical and Physical Sciences da University of Sheffield, disse que alguns outros resultados sugerem que médicos podem inconscientemente seguir respostas da IA em vez de pensar de forma independente
Xing afirmou que essa tendência pode se intensificar à medida que a IA for usada de forma mais rotineira em ambientes clínicos
Xing apontou que faltam informações sobre em quais pacientes a IA teve pior desempenho, como se enfrentou mais dificuldades com pacientes idosos ou com pacientes cuja língua materna não é o inglês
Xing disse que o estudo não demonstra que a IA seja segura para uso clínico cotidiano, nem que ferramentas de IA livremente acessíveis ao público devam ser usadas como substitutas de aconselhamento médico

1 comentários

GN⁺ 2 시간 전

Comentários do Hacker News

É muito difícil confiar nesse tipo de estudo, porque é fácil demais estragar benchmarks
Por exemplo, em um artigo recente a IA superou radiologistas na leitura de raios X, mas a IA nem sequer teve acesso ao raio X: https://arxiv.org/pdf/2603.21687
Era um benchmark existente de “grande escala para perguntas e respostas visuais sobre compreensão geral de raios X de tórax”, e não foi algo sabotado de propósito
Além disso, na leitura de raios X o radiologista humano realmente olha o raio X. Já no contexto desta matéria, médicos humanos não diagnosticam pacientes do pronto-socorro olhando só anotações
Acaba sendo um caso de mandar alguém fazer uma tarefa que não é necessária, nem familiar, nem algo para o qual foi treinado, e então dizer “a IA faz melhor”; então, mesmo que as anotações não tivessem vazado a resposta por algum atalho estranho, isso não seria surpreendente
Isso não quer dizer que este estudo esteja claramente errado ou que tenha sido intencionalmente enganoso, mas eu não tiraria conclusões fortes com base em um único estudo
- Concordo em relação a este estudo específico, mas no longo prazo não entendo muito bem a ideia de que médicos serão melhores que modelos de IA
  No fim, medicina é uma questão de conhecimento, experiência, inteligência e talvez reconhecimento de padrões, e parece que os melhores modelos de IA, especialmente os focados só em medicina, vão superar em muito a maioria dos humanos, incluindo médicos
  Se já fazemos essa suposição para engenheiros de software, deveríamos aplicá-la aqui também, e na prática, toda vez que vi médicos nos últimos meses, incluindo duas idas ao pronto-socorro, todos estavam usando ChatGPT. Sem brincadeira, fiquei chocado
  Então fico genuinamente curioso: deixando de lado responsabilidade e ética, olhando de forma puramente técnica, qual capacidade específica ou combinação de capacidades faz alguém acreditar que uma IA médica de ponta não vai igualar ou superar permanentemente — ou pelo menos por décadas — o desempenho de um excelente médico humano?
- Curiosamente, um estudo recente usando ChatGPT Health teve um resultado bem diferente: https://www.nature.com/articles/s41591-026-04297-7
  Aqui ele errou a classificação de gravidade na triagem em cerca de metade dos casos
- Se você ler a matéria até o fim, quando médicos e grandes modelos de linguagem puderam ler o histórico completo do caso, a diferença desapareceu no critério de significância estatística
  Os números da manchete citam o resultado de diagnósticos estimados com base apenas nas anotações da enfermagem. Meu palpite é que, em estudos de caso selecionados, o grande modelo de linguagem talvez tenha chutado com menos hesitação do que os médicos
- Médicos deixam passar coisas por causa de vieses cognitivos humanos, e parece plausível, porque pessoas tendem a ficar presas aos padrões com os quais estão mais familiarizadas
- Ainda não li todo o artigo vinculado, mas acho interessante a suposição de que, sem acesso ao raio X, o resultado seria uma ilusão ou miragem
  Parece uma conclusão muito razoável, mas ignora outra possibilidade. Será que o raio X torna o resultado menos preciso?
Fiquei surpreso com o quanto tanto a matéria quanto o artigo parecem exagerados. Isso coloca médicos para competir em um formato muito favorável aos grandes modelos de linguagem, e não representa a prática clínica
Esses casos de raciocínio são uma ferramenta de estudo, não um benchmark para médicos
O diagnóstico depende прежде de descrever corretamente o paciente, e as informações coletadas mudam conforme o diagnóstico diferencial
Uma das capacidades do médico é reunir informação de várias fontes e filtrar o que importa. O paciente pode não conseguir se expressar claramente ou pode ser não verbal, e talvez seja preciso ouvir acompanhante ou família
A própria anamnese é uma habilidade, e o exame físico também, mas aqui esses dados já foram dados prontos
Especialmente em perguntas que podem ter entrado nos dados de treino do o1, não é nada surpreendente que ele supere médicos em puro reconhecimento de padrões em texto plano, mas isso não parece uma comparação clinicamente útil
Decidir quais exames pedir, se vale fazer imagem, ou filtrar informações irrelevantes no histórico também são habilidades separadas, e é difícil separá-las da formação do diagnóstico
- Também seria preciso ver uma análise dos casos de erro diagnóstico. O objetivo do médico humano não é obter a maior precisão possível, e sim reduzir o dano total ao paciente
  Em alguns casos, mesmo que escolher X seja melhor em termos probabilísticos, a diferença pode ser pequena, e a opção mais segura pode ser excluir primeiro outras possibilidades ou iniciar um tratamento seguro que cubra várias hipóteses
  Simplesmente tirar uma “nota alta” nessa avaliação não significa necessariamente boa prática médica
Eu não daria muito peso a este estudo, mas acho que muita gente ainda pode reconhecer que grandes modelos de linguagem para autodiagnóstico podem ser úteis
Nos EUA, é difícil conseguir atenção e atendimento de um médico, então a realidade é que no fim você precisa se virar sozinho
Dez anos atrás, médicos reclamavam de pacientes chegarem com coisas encontradas no Google, mas agora acho que não há alternativa
Por exemplo, fui a um especialista em pé e tornozelo por um problema nessas áreas; o problema no pé foi diagnosticado por raio X, mas sobre o tornozelo ele só deu de ombros dizendo que não aparecia nada no raio X
Os 15 minutos reservados acabaram, e eu saí sem saber a causa nem como corrigir. Depois de 5 minutos perguntando a um grande modelo de linguagem, obtive uma causa plausível para o tornozelo que também batia com o diagnóstico do pé
- Não acho que usar grandes modelos de linguagem na medicina seja uma solução apropriada para os problemas do sistema de saúde americano
  Se empresas de saúde escolherem usar IA para aumentar o número de pacientes por dia em vez de melhorar o atendimento, a situação provavelmente vai piorar
Dizer que “a IA e dois médicos humanos leram o mesmo prontuário eletrônico padronizado” é impor uma limitação à capacidade dos médicos humanos
Um médico humano consegue obter muito mais informação só observando rapidamente o paciente
- Não daria para dizer o mesmo da IA?
- Por outro lado, também existe o argumento de que “raramente há algo tão perigoso quanto especialistas com acesso a material interpretativo aberto, como em uma entrevista clínica”
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- Concordo. Acho que o melhor uso dessa tecnologia é combinar os pontos fortes dos dois lados
  A IA pode revisar os registros e sugerir hipóteses diagnósticas, e o médico pode analisá-las depois de observar o paciente
  Além disso, doenças comuns realmente são comuns. Fico curioso sobre o quanto isso acaba enviesando tanto médicos quanto grandes modelos de linguagem
  Se alguém aparece com coriza e tosse, diagnosticar como gripe provavelmente vai estar certo na maioria das vezes
- Isso parece uma observação muito importante. Além disso, seria interessante incluir vídeos curtos ou fotos para que a IA também pudesse usar esse material
- E, de quebra, as redes de saúde agora estão pressionando médicos a usar software de transcrição por IA para preencher prontuários eletrônicos
  Médicos e enfermeiros gostam porque não precisam digitar tudo, mas a revisão dos erros de transcrição relativamente frequentes no prontuário está completamente bagunçada
  Agora é só colocar uma transcrição defeituosa dentro de um sistema de diagnóstico por IA e pronto. A IA vai tratar aquilo como verdade absoluta, enquanto um médico pode parar e pensar “espera aí, o que é isso?”
Eu usei grandes modelos de linguagem para diagnosticar não só a mim e minha esposa, mas também meus cães
Tenho certeza de que existe uma grande oportunidade em veterinária baseada em IA. Seria especialmente bom se depois isso também permitisse fazer cotações de atendimento ou cirurgia entre clínicas veterinárias locais
Os preços entre clínicas locais podem variar mais de 10 vezes. Minha mãe e minha sogra, ambas com 80 anos, já foram cobradas em excesso com frequência por veterinários, e como os cães são uma parte enorme da vida delas, elas ficam muito vulneráveis à pressão
Não entendo as reações negativas aqui. O simples fato de que computadores conseguem chegar a algo como 30% já é impressionante
Parece haver hostilidade demais contra IA e laboratórios de fronteira como a OpenAI, ou o pessoal ligado ao Google, e isso não faz sentido
- É verdade que existe muito clima negativo em torno de IA. Mas este estudo também tem limitações reais
  Para mim, o ponto principal é que a IA recebeu anotações sobre casos, mas não viu o paciente diretamente
  Isso é diferente de como os médicos são treinados e limita desnecessariamente o que eles podem fazer. Boa parte do valor que o médico oferece vem da conversa com o paciente
  A manchete soa como se a IA fosse substituir médicos, mas na prática está mais perto de “a IA consegue fazer melhor esta tarefa estreita do que um médico”
  Também é bem possível que as anotações usadas tenham sido originalmente escritas por médicos
  O verdadeiro ganho seria a combinação médico+IA ser melhor do que médico sozinho. Quando o médico tiver de ler anotações do caso e chegar a uma conclusão, agora ele pode aproveitar uma sugestão razoavelmente boa da IA
- Não sei por que isso seria difícil de entender. Os comentários críticos mais votados explicam bem os motivos, e eles nem são tão técnicos assim
  Quanto maior o que está em jogo, normalmente deveríamos ser mais críticos, não menos
- Disseram a mesma coisa sobre a Enron
  Ceticismo é uma ferramenta absurdamente útil, mesmo em excesso
- Sinceramente, fico feliz de ver gente do meio médico sentindo um medo existencial de que a IA possa tomar seus empregos, como eu sinto, em vez de continuar em uma profissão confortável e bem remunerada sustentada por cartel
Aos 60 anos, eu mesmo criei uma ferramenta de apoio médico com IA [1] e a usei amplamente para vários sintomas, e fiquei muito satisfeito
Depois de analisar alguns resultados de exames, ela recomendou até indicadores que o médico inicialmente não tinha considerado
Não substitui médicos, mas é uma ferramenta muito útil para autodiagnóstico de sintomas simples e para segunda opinião
[1] https://mediconsulta.net (DeepSeek)
Fiquei curioso para saber se esses 33% fazem parte dos 50~45%
Se não forem um subconjunto, quão graves foram esses erros? Houve mais mortes? O tempo de recuperação foi maior? Em que exatamente essa diferença se traduziu na prática?
Artigo: https://www.science.org/doi/10.1126/science.adz4433 (30 de abril de 2026)
Quão grande é a diferença entre 67% e 55%? O estudo usou os mesmos pacientes para comparar com os médicos?
Se não compararam lado a lado como cada um avaliou cada situação e por que chegaram a conclusões diferentes, não sei o quanto isso pode ser cientificamente eficaz
Quem pode garantir que, nos 43% restantes, o médico não consegue encontrar pontos cegos que a IA deixou passar
Ferramentas servem para combinar esforços, não para substituir
Jogar esse tipo de porcentagem para o público é bastante irresponsável

OpenAI o1 diagnosticou corretamente 67% dos pacientes de emergência, enquanto médicos de triagem ficaram em 50% a 55%

Principais resultados do experimento de triagem em emergência de Harvard

Experimento de diagnóstico com 76 pacientes de emergência

Experimento de planejamento de tratamento de longo prazo

Limitações do estudo e mudança de papel no ambiente médico

Casos clínicos e o raciocínio da IA

Uso de IA médica já está se expandindo

Avaliação de especialistas externos e pontos de atenção

Leituras relacionadas

1 comentários

Comentários do Hacker News