- Depois de uma ressonância magnética por dor no ombro direito, surgiu uma dúvida sobre o diagnóstico do hospital de ruptura parcial de espessura parcial grau III e o plano de tratamento rápido, então tentei reinterpretar as imagens com o Opus 4.8
- O hospital viu uma ruptura parcial com mais de 50% da largura na região de “apical insertion” do tendão do subescapular, mas o Opus 4.8 concluiu que o tendão estava íntegro, resultando em conclusões muito divergentes
- O GPT 5.5 Pro questionou a base do tratamento por ondas de choque e da injeção de Traumeel no tratamento do hospital, o que aumentou a motivação para revisar diretamente o próprio diagnóstico
- No ambiente do Claude Code, o Opus 4.8 analisou centenas de arquivos DICOM MRI totalizando cerca de 266MB com instalação de pacotes e execução de código, e depois refez uma análise de arbitragem incluindo até o laudo humano e a conversa com o ChatGPT
- O resultado final da arbitragem ficou mais próximo de “tendinopatia insercional leve, sem ruptura parcial ou total evidente”, mas permaneceu a incerteza sobre confiar mais no especialista médico ou na IA
Diagnóstico e tratamento de MRI conduzidos rapidamente
- Havia dor no ombro direito havia algumas semanas e, embora os sintomas parecessem melhorar, busquei a opinião de um ortopedista
- O médico recomendou uma MRI, e como ela podia ser feita imediatamente na clínica, realizei o exame
- O resultado da MRI levou ao diagnóstico de Grade III (>50%-width) partial-thickness tear na região de “apical insertion” do tendão do subescapular
- O hospital iniciou o tratamento poucos minutos após a MRI e também definiu um plano para repetir o mesmo tratamento 3 vezes no total
- Como senti que tudo estava avançando rápido demais, ao sair do hospital pedi uma cópia do resultado da MRI e a lista dos tratamentos realizados e propostos
O problema de base clínica apontado pelo GPT 5.5 Pro
- Quando enviei o resultado da MRI e a lista de tratamentos ao GPT 5.5 Pro, duas coisas ficaram evidentes
- O hospital aplicou tratamento por ondas de choque no ombro, mas diretrizes clínicas recentes dizem para não usar nem recomendar ondas de choque para tendinopatia do manguito rotador sem calcificação
- Durante o ultrassom, me disseram que não havia calcificação
- O hospital aplicou Traumeel por injeção, que é um medicamento homeopático registrado na Alemanha como sem “indicação terapêutica”
- Isso reduziu ainda mais minha confiança no diagnóstico e no tratamento do hospital, e passei a querer analisar a própria MRI
Analisando a MRI com Opus 4.8 no Claude Code
- O pacote da MRI era um DICOM export padrão composto por centenas de arquivos sem extensão, com tamanho total de cerca de 266MB
- Para a análise, usei o Opus 4.8 (xhigh) dentro do Claude Code
- Escolhi o Claude Code porque permite executar código e instalar pacotes
- Instrui previamente a instalação dos pacotes necessários para a análise
- Mesmo usando o mesmo modelo, considero que há uma diferença muito grande entre o Claude Code e o chat do Claude.ai
- Como eu não tinha conhecimento sobre MRI, configurei para que o Claude primeiro elaborasse um plano detalhado e só depois executasse
- O contexto médico inicialmente fornecido foi apenas “dor no ombro direito por 2–3 semanas”, e julguei depois que isso era menos informação do que a recebida pelo médico humano
Divergência sobre a existência da ruptura na primeira análise
- Cerca de 1 hora depois, o Opus 4.8 retornou um relatório
- O laudo do hospital e a leitura do Opus 4.8 eram quase opostos
- O hospital identificou uma ruptura parcial grau III na região de apical insertion do tendão do subescapular
- O Opus 4.8 avaliou esse tendão como intact tendon
- Eu esperava no máximo uma diferença no grau da ruptura, mas na prática houve divergência até sobre a própria existência da ruptura
Nova arbitragem entre leitura humana e leitura por IA
- Para conciliar os dois resultados, pedi ao Opus 4.8 uma nova análise comparativa
- Desta vez, forneci não só o laudo humano da MRI, mas também a conversa que tive com o ChatGPT 5.5 Pro
- Essa conversa incluía movimentos e posturas a testar para estimar o diagnóstico
- O Opus abordou isso usando vários subagentes para obter uma nova análise menos enviesada pelo contexto anterior
- Cerca de 1 hora depois, saiu um novo relatório
- A conclusão da arbitragem foi que as evidências favoreciam o Reader A, resumidas com “moderate-to-high confidence”
- Tendinopatia insercional leve
- Incluindo a apical insertion, sem ruptura parcial ou total evidente
- Disse que não era possível resolver parte das divergências entre os dois laudos, mas, neste ponto, apresentou uma conclusão relativamente firme
- Tendinopatia insercional leve
As escolhas que restam após a segunda opinião da IA
- Há uma sensação de segurança ao confiar em um especialista, mas uma segunda opinião baseada em IA pode abalar esse conforto de forma incômoda
- Após a análise por IA, o diagnóstico e o plano de tratamento existentes passaram a parecer precipitados e excessivamente intervencionistas em relação aos fatos, mas a própria IA também não é totalmente confiável
- As opções restantes são procurar outro médico ou esperar para ver se o ombro melhora com a reabilitação que estou fazendo agora
- Espero que, em algumas gerações, possamos confiar na revisão de MRI por IA como hoje se confia na revisão de e-mails
- Não revelo o nome da clínica nem do médico, e esta experiência não é conselho médico, mas um caso de curiosidade técnica sobre obter uma segunda opinião com IA
1 comentários
Opiniões do Hacker News
Sou radiologista, mas é difícil julgar sem ver o conjunto completo de dados 3D da MRI. Ultrassom não é um bom método para avaliar calcificações; encontra calcificações grandes, mas pode facilmente deixar passar as pequenas
Uma radiografia simples ajudaria mais, e talvez isso também tenha aparecido na MRI. De todo modo, quando não há calcificação, a terapia por ondas de choque não é prejudicial; apenas não ajuda
Em laudos radiológicos, quando se escreve “não há”, sempre fica implícita a ressalva “não há dentro da modalidade de exame e da área coberta pelas imagens obtidas”. Por isso, não é uma contradição um laudo de ultrassom dizer que não há calcificação e um laudo de radiografia simples dizer que há calcificação
Para pacientes ou pessoas não familiarizadas com terminologia médica, isso obviamente é confuso, mas, se o laudo explicasse tudo isso, viraria um documento com ainda mais linguagem condicional do que hoje e irritante de ler
Isso me lembra a anedota em que perguntaram a Babbage se, ao inserir uma pergunta errada em uma máquina de calcular, sairia a resposta correta. Ele respondeu algo como: “não consigo sequer compreender a lógica mental que concebe tal pergunta”
Uma IA deveria pelo menos apontar que cálcio aparece melhor em raio X/CT do que em ultrassom
Para quem tiver interesse, ofereço um serviço de segunda opinião feito por radiologistas humanos certificados: https://expert.med
O ponto central é exatamente este. Sei que não dá para confiar na IA, mas, ao mesmo tempo, é muito mais fácil pedir mais explicações ou contestar a IA. Não há agendamento por hora nem custo por hora, e isso pesa bastante. Mas ter mais informações não necessariamente ajuda
Uma vez levei meu Civic de 11 anos, com 150 mil milhas rodadas, a várias oficinas para jogar o jogo da “segunda opinião”. Queria comparar as recomendações de cada oficina e decidir o que fazer
O resultado foram três recomendações totalmente sem relação entre si, e uma delas era algo que eu sabia com certeza estar errado. Saí me sentindo pior do que antes de começar
A solução para informações incertas não é mais informação, que a IA pode fornecer, mas informação melhor — e, atualmente, a IA não consegue fornecer isso
É bem revelador ver quantas respostas diferentes e contraditórias aparecem. A maioria é apresentada com confiança
Da última vez que coloquei uma pergunta médica no Claude, nem entre sessões consegui obter respostas consistentes
O mais assustador é como é fácil conduzir cada LLM para a resposta que eu tinha em mente. Quando comecei a perguntar sobre opções sugeridas por outro LLM, cada sessão foi derivando para aquela explicação
Mistérios são piores. A cada nova peça de dado adicionada, o objetivo fica mais distante. Tudo vai ficando cada vez mais confuso
É uma distinção popularizada por Malcolm Gladwell
Sei que obter opiniões de mecânicos consome muito tempo. Mas com IA não é assim
Há alguns anos, antes da febre da IA, já recebi um diagnóstico equivocado de tuberculose. Eu tinha tosse crônica, e um radiologista terceirizado de uma clínica encontrou sinais de tuberculose. O resultado foi enviado, conforme a lei, ao hospital municipal de tuberculose, e os médicos de lá simplesmente aceitaram a conclusão da radiologia e disseram que eu deveria ficar por pelo menos 8 meses em um hospital com um regime rígido, quase como uma prisão
Não havia como recusar. Eu era tratado como uma espécie de risco biológico e, legalmente, tinha de cumprir
Antes da internação, procurei às pressas outro radiologista, que diagnosticou pneumonia. Enviei esse laudo ao médico responsável no hospital de tuberculose e, após revisão, eles concluíram que a primeira leitura estava errada. Descobri que os médicos de lá não sabiam ler as imagens de fato e simplesmente confiavam no que o radiologista dizia
O engraçado é que eles já tinham me colocado no registro oficial de tuberculose e não queriam admitir o erro. Em vez disso, emitiram outro documento dizendo que “naquele hospital, a tuberculose foi curada em 7 dias”. Talvez eu seja a única pessoa daquele país que venceu a tuberculose em uma semana
Se é difícil confiar em radiologistas ou médicos, vale procurar outro médico quando o custo permitir. Dá para comparar as conclusões e ver se coincidem. Se dois médicos ou radiologistas sem relação entre si dizem a mesma coisa, há uma boa chance de estar bem perto da verdade
Só não sei muito bem em quem se deve confiar mais, em IA ou em humanos. A IA alucina, mas eu também já recebi diagnósticos errados de humanos várias vezes
Acho que deveria haver um lugar centralizado onde especialistas de altíssimo nível analisassem as imagens, em vez de deixar cada médico olhar por conta própria
Acho interessante ver como as pessoas aqui esperam que o corpo humano seja como uma função determinística, em que a entrada X deve produzir a saída Y. Essa expectativa se estende ao diagnóstico, imaginando que vários especialistas darão o mesmo diagnóstico para o mesmo problema
Considerando a complexidade do corpo humano, um diagnóstico é o resultado da combinação de experiência acumulada ao longo da carreira, conhecimento, métodos diagnósticos e equipamentos. Um título como “médico” é uma certificação do Estado de que “passou na prova, então é seguro deixá-lo atender”, mas isso não significa que todos atendam da mesma forma
Alguns especialistas atualizam seus conhecimentos todo mês; outros, todo ano; outros, nunca. Há variáveis demais: região, política e até o clima
Por isso, a escolha do especialista é realmente importante. É preciso buscar a reputação da pessoa quanto ao modo de atendimento e à área de especialidade. Você só consegue maximizar a chance de receber o diagnóstico correto; não deve esperar que alguém esteja certo só porque é chamado de médico
Vi muitos amigos e familiares receberem recomendação de cirurgia quase imediatamente por dor no ombro. Para quem vive de fazer cirurgias, é comum que cirurgia vire a opção padrão
Eu também tive uma dor considerável no ombro por um tempo, e ela não melhorou durante meses. Eu não queria operar, então tentei massagem e acupuntura, mas não ajudaram em nada
O que resolveu foi focar de verdade em barras fixas. No começo eu não conseguia fazer nenhuma, então comecei só ficando pendurado e fazendo scapular pull-ups, e fui avançando aos poucos para barras normais. Depois que consegui fazer algumas por série, passei a treinar no estilo “grease-the-groove”
Quando cheguei a cerca de 17 por série, parei com a programação de treino; hoje faço, distribuídas ao longo do dia, 6 séries de 7 a 8 repetições, 3 vezes por semana. Também faço exercícios de mobilidade para o ombro https://www.youtube.com/watch?v=vP8YmmRMz6I
Quando fico preguiçoso e deixo de fazer, o desconforto inevitavelmente volta, mas desaparece quando retomo os exercícios de fortalecimento
Parece que, quando o paciente vai atrás de uma solução rápida, é esse tipo de solução que recebe. Quando estuda um pouco e vai atrás da melhor solução para si, em geral acaba conseguindo isso
Cerca de 2 anos atrás, usei o “deep research” do ChatGPT para investigar uma sinusite crônica com a qual eu vinha brigando havia quase 3 anos. Depois de passar por 3 clínicos gerais e 3 consultas com otorrinolaringologistas, coloquei na IA todas as observações que eu tinha
Em particular, o otorrino tinha olhado meus seios da face com um endoscópio e visto evidências de reação alérgica, mas depois, após o teste de alergia, concluiu que eu não poderia ser tratado com remédio para alergia — e não conseguiu explicar o motivo. Perguntei algumas vezes, mas ele não respondeu
O ChatGPT encontrou um estudo do NIH mostrando que 20% das pessoas apresentam reações alérgicas localizadas em uma parte específica do corpo, que podem não aparecer em um teste cutâneo por puntura no ombro. Quando perguntei a ele, ele só disse que “alergias não funcionam assim”. E ficou por isso. Nem pensou em olhar o estudo
Ele prescreveu CPAP e tratamentos regulares com nebulizador. Como detalhe paralelo, a empresa de CPAP me mandou uma mensagem de texto, mas eu não conseguia saber se era phishing; perguntei quem eram, mas não tive resposta
Então resolvi simplesmente tentar tomar um antialérgico de segunda geração todos os dias
A sinusite desapareceu. Antes, eu tinha uma sinusite forte pelo menos a cada trimestre. Talvez, como aquele médico disse, alergias não funcionem desse jeito, mas o remédio para alergia resolveu completamente o meu problema
Sou grato por isso. Alguns anos antes, tentei usar CPAP corretamente por um mês, mas não consegui me acostumar de jeito nenhum, e meu sono ficou péssimo
Depois vêm a responsabilidade e o tempo. Especialmente em uma área de alto risco como a medicina, quando você pede a alguém que reavalie uma decisão, ninguém tem tempo nem vontade de abrir essa bagunça
Se você realmente quer ter sucesso, precisa propor o exame indicado pelo estudo antes que o ciclo diagnóstico se feche, antes que os médicos consolidem seu caso sobre você. Assim é que há maior chance de verem o que precisa ser visto
É melhor simplesmente dizer com franqueza que você trouxe uma hipótese. Os médicos percebem muito rápido quando estão sendo conduzidos, mas demoram mais para perceber que o paciente de fato estava certo. Em um sistema em que pessoas sobrecarregadas estão fazendo o melhor que podem, é assim que é preciso agir
Como radiologista, achei que Claude e ChatGPT são realmente péssimos em interpretar ressonâncias magnéticas, e eu não confiaria neles de forma alguma. Eles têm pontos fortes ao pesquisar material baseado em texto, mas ainda não interpretam imagens radiológicas bem o suficiente
Atualmente, o software de RM Deep Resolve, da Siemens, gera sinal (cerca de 50% a mais), depois gera um de cada dois pixels e, em sequências 3D, gera uma de cada duas fatias. Ele reduz cerca de 59% do tempo de cada sequência, e é realmente muito bom
Sou técnico de RM
Na verdade, tenho curiosidade sobre o ELO do ChatGPT 5.5. Pelo conteúdo que ele absorveu, não ficaria muito surpreso se, só com uma compreensão básica dos princípios do xadrez, ele ficasse acima de 2000
Não entendo a reação negativa. A medicina atual só funciona quando tanto o médico quanto o paciente usam a cabeça. Quase nunca tive um caso em que o médico simplesmente me deu um diagnóstico e eu segui o dia. Quando isso aconteceu, em geral era porque eu tinha certeza do problema e sabia do que precisava. O médico era a barreira que impedia o acesso ao tratamento
Dr. GPT é uma boa ferramenta de brainstorming. Ele sintetiza informações de uma forma difícil de fazer apenas com os materiais originais. Mas também é preciso forçá-lo a dizer “isso não faz sentido”
Acho fraca a ideia de que “os médicos não sabem o conhecimento mais recente”. Considerando a densidade de tokens no pré-treinamento e a forma como os datasets de pós-treinamento são compostos, levaria muito tempo para ele se adaptar a uma mudança fundamental. Se tivéssemos esquecido o tratamento do escorbuto, quantos artigos seriam necessários para ele se adaptar à nova descoberta?
Eu não confiaria em IA para imagens. Mas uma vez o ChatGPT, olhando apenas o texto de um laudo de RM, disse que havia grande probabilidade de o laudo estar muito errado e sugeriu outro diagnóstico. Ele insistiu bastante, então procurei outro médico e refiz os exames. Resumindo: o ChatGPT estava certo
Reforçando: isso é apenas uma experiência isolada de uma pessoa, então não significa muita coisa
Não entendo por que médicos não ao menos fazem um prompt em um LLM antes de dizerem algo errado. É orgulho?
Entendo no caso da radiologia, que precisa de redes neurais convolucionais especializadas, mas isso vale ainda mais para problemas mais próximos de uma base de conhecimento
Acho que veremos muitos VLMs especializados que entregam valor real
Esses brinquedos não são confiáveis de jeito nenhum. Não quer dizer que sejam inúteis, mas não dá para confiar neles