Obtendo uma segunda opinião do meu MRI com Claude Code

(antoine.fi)

2 pontos por GN⁺ 10 시간 전 | 1 comentários | Compartilhar no WhatsApp

Depois de uma ressonância magnética por dor no ombro direito, surgiu uma dúvida sobre o diagnóstico do hospital de ruptura parcial de espessura parcial grau III e o plano de tratamento rápido, então tentei reinterpretar as imagens com o Opus 4.8
O hospital viu uma ruptura parcial com mais de 50% da largura na região de “apical insertion” do tendão do subescapular, mas o Opus 4.8 concluiu que o tendão estava íntegro, resultando em conclusões muito divergentes
O GPT 5.5 Pro questionou a base do tratamento por ondas de choque e da injeção de Traumeel no tratamento do hospital, o que aumentou a motivação para revisar diretamente o próprio diagnóstico
No ambiente do Claude Code, o Opus 4.8 analisou centenas de arquivos DICOM MRI totalizando cerca de 266MB com instalação de pacotes e execução de código, e depois refez uma análise de arbitragem incluindo até o laudo humano e a conversa com o ChatGPT
O resultado final da arbitragem ficou mais próximo de “tendinopatia insercional leve, sem ruptura parcial ou total evidente”, mas permaneceu a incerteza sobre confiar mais no especialista médico ou na IA

Diagnóstico e tratamento de MRI conduzidos rapidamente

Havia dor no ombro direito havia algumas semanas e, embora os sintomas parecessem melhorar, busquei a opinião de um ortopedista
O médico recomendou uma MRI, e como ela podia ser feita imediatamente na clínica, realizei o exame
O resultado da MRI levou ao diagnóstico de Grade III (>50%-width) partial-thickness tear na região de “apical insertion” do tendão do subescapular
O hospital iniciou o tratamento poucos minutos após a MRI e também definiu um plano para repetir o mesmo tratamento 3 vezes no total
Como senti que tudo estava avançando rápido demais, ao sair do hospital pedi uma cópia do resultado da MRI e a lista dos tratamentos realizados e propostos

O problema de base clínica apontado pelo GPT 5.5 Pro

Quando enviei o resultado da MRI e a lista de tratamentos ao GPT 5.5 Pro, duas coisas ficaram evidentes
- O hospital aplicou tratamento por ondas de choque no ombro, mas diretrizes clínicas recentes dizem para não usar nem recomendar ondas de choque para tendinopatia do manguito rotador sem calcificação
- Durante o ultrassom, me disseram que não havia calcificação
- O hospital aplicou Traumeel por injeção, que é um medicamento homeopático registrado na Alemanha como sem “indicação terapêutica”
Isso reduziu ainda mais minha confiança no diagnóstico e no tratamento do hospital, e passei a querer analisar a própria MRI

Analisando a MRI com Opus 4.8 no Claude Code

O pacote da MRI era um DICOM export padrão composto por centenas de arquivos sem extensão, com tamanho total de cerca de 266MB
Para a análise, usei o Opus 4.8 (xhigh) dentro do Claude Code
- Escolhi o Claude Code porque permite executar código e instalar pacotes
- Instrui previamente a instalação dos pacotes necessários para a análise
Mesmo usando o mesmo modelo, considero que há uma diferença muito grande entre o Claude Code e o chat do Claude.ai
Como eu não tinha conhecimento sobre MRI, configurei para que o Claude primeiro elaborasse um plano detalhado e só depois executasse
O contexto médico inicialmente fornecido foi apenas “dor no ombro direito por 2–3 semanas”, e julguei depois que isso era menos informação do que a recebida pelo médico humano

Divergência sobre a existência da ruptura na primeira análise

Cerca de 1 hora depois, o Opus 4.8 retornou um relatório
O laudo do hospital e a leitura do Opus 4.8 eram quase opostos
- O hospital identificou uma ruptura parcial grau III na região de apical insertion do tendão do subescapular
- O Opus 4.8 avaliou esse tendão como intact tendon
Eu esperava no máximo uma diferença no grau da ruptura, mas na prática houve divergência até sobre a própria existência da ruptura

Nova arbitragem entre leitura humana e leitura por IA

Para conciliar os dois resultados, pedi ao Opus 4.8 uma nova análise comparativa
Desta vez, forneci não só o laudo humano da MRI, mas também a conversa que tive com o ChatGPT 5.5 Pro
- Essa conversa incluía movimentos e posturas a testar para estimar o diagnóstico
O Opus abordou isso usando vários subagentes para obter uma nova análise menos enviesada pelo contexto anterior
Cerca de 1 hora depois, saiu um novo relatório
A conclusão da arbitragem foi que as evidências favoreciam o Reader A, resumidas com “moderate-to-high confidence”
- Tendinopatia insercional leve
  - Incluindo a apical insertion, sem ruptura parcial ou total evidente
  - Disse que não era possível resolver parte das divergências entre os dois laudos, mas, neste ponto, apresentou uma conclusão relativamente firme

As escolhas que restam após a segunda opinião da IA

Há uma sensação de segurança ao confiar em um especialista, mas uma segunda opinião baseada em IA pode abalar esse conforto de forma incômoda
Após a análise por IA, o diagnóstico e o plano de tratamento existentes passaram a parecer precipitados e excessivamente intervencionistas em relação aos fatos, mas a própria IA também não é totalmente confiável
As opções restantes são procurar outro médico ou esperar para ver se o ombro melhora com a reabilitação que estou fazendo agora
Espero que, em algumas gerações, possamos confiar na revisão de MRI por IA como hoje se confia na revisão de e-mails
Não revelo o nome da clínica nem do médico, e esta experiência não é conselho médico, mas um caso de curiosidade técnica sobre obter uma segunda opinião com IA

1 comentários

GN⁺ 10 시간 전

Opiniões do Hacker News

Sou radiologista, mas é difícil julgar sem ver o conjunto completo de dados 3D da MRI. Ultrassom não é um bom método para avaliar calcificações; encontra calcificações grandes, mas pode facilmente deixar passar as pequenas
Uma radiografia simples ajudaria mais, e talvez isso também tenha aparecido na MRI. De todo modo, quando não há calcificação, a terapia por ondas de choque não é prejudicial; apenas não ajuda
Em laudos radiológicos, quando se escreve “não há”, sempre fica implícita a ressalva “não há dentro da modalidade de exame e da área coberta pelas imagens obtidas”. Por isso, não é uma contradição um laudo de ultrassom dizer que não há calcificação e um laudo de radiografia simples dizer que há calcificação
Para pacientes ou pessoas não familiarizadas com terminologia médica, isso obviamente é confuso, mas, se o laudo explicasse tudo isso, viraria um documento com ainda mais linguagem condicional do que hoje e irritante de ler
- Acho que isso foi gentil demais. Se alguém não entende isso, só ficaria confuso se presumisse que todo equipamento de diagnóstico tem nitidez infinita e está sempre certo
  Isso me lembra a anedota em que perguntaram a Babbage se, ao inserir uma pergunta errada em uma máquina de calcular, sairia a resposta correta. Ele respondeu algo como: “não consigo sequer compreender a lógica mental que concebe tal pergunta”
- Do ponto de vista de um técnico em radiologia, eu diria: “é isso mesmo, doutor!”. Já vi uso de IA ajudando pacientes a entenderem a própria situação ou a compreenderem valores básicos de exames de sangue, mas ela é realmente ruim quando fica concordando demais com a pessoa e a arrasta para uma toca de coelho médica como no post original
  Uma IA deveria pelo menos apontar que cálcio aparece melhor em raio X/CT do que em ultrassom
- Concordo. Não sou radiologista, mas faço bastante pesquisa com MRI. Especialistas e leigos provavelmente têm taxas de sucesso diferentes ao extrair um diagnóstico correto de modelos de fronteira, e diferenças sutis no prompt podem levar a diagnósticos distintos https://www.nature.com/articles/s41591-026-04501-8
- Ao ler e pesquisar os termos que aparecem aqui, eles parecem muito parecidos com os sintomas do meu ombro direito. Sinto como se uma enorme toca de coelho tivesse se aberto ao lado da minha mesa
- Fico me perguntando por que a ortopedia não usa mais ultrassom diagnóstico. Corações e órgãos de fetos são vistos todos os dias; por que ombros não? Parece muito mais barato e rápido
Para quem tiver interesse, ofereço um serviço de segunda opinião feito por radiologistas humanos certificados: https://expert.med
- Precisamos disso em versão odontológica
O ponto central é exatamente este. Sei que não dá para confiar na IA, mas, ao mesmo tempo, é muito mais fácil pedir mais explicações ou contestar a IA. Não há agendamento por hora nem custo por hora, e isso pesa bastante. Mas ter mais informações não necessariamente ajuda
Uma vez levei meu Civic de 11 anos, com 150 mil milhas rodadas, a várias oficinas para jogar o jogo da “segunda opinião”. Queria comparar as recomendações de cada oficina e decidir o que fazer
O resultado foram três recomendações totalmente sem relação entre si, e uma delas era algo que eu sabia com certeza estar errado. Saí me sentindo pior do que antes de começar
A solução para informações incertas não é mais informação, que a IA pode fornecer, mas informação melhor — e, atualmente, a IA não consegue fornecer isso
- Mantenho várias assinaturas de LLMs e modelos locais em uso ao mesmo tempo. Quando faço perguntas fora da minha área de especialidade, pergunto a todos os LLMs a que tenho acesso e crio sessões separadas para fazer a mesma pergunta de várias formas
  É bem revelador ver quantas respostas diferentes e contraditórias aparecem. A maioria é apresentada com confiança
  Da última vez que coloquei uma pergunta médica no Claude, nem entre sessões consegui obter respostas consistentes
  O mais assustador é como é fácil conduzir cada LLM para a resposta que eu tinha em mente. Quando comecei a perguntar sobre opções sugeridas por outro LLM, cada sessão foi derivando para aquela explicação
- Há uma grande diferença entre quebra-cabeças e mistérios. Em um quebra-cabeça, o estado-alvo é conhecido, e quanto mais peças — isto é, dados — você tem, mais se aproxima do objetivo. Você também sabe quanto falta para chegar lá
  Mistérios são piores. A cada nova peça de dado adicionada, o objetivo fica mais distante. Tudo vai ficando cada vez mais confuso
  É uma distinção popularizada por Malcolm Gladwell
- Acho que a IA hoje consegue fornecer informações melhores. Só que não consegue fazer isso de forma confiável, e leigos não conseguem distinguir a diferença, então fica mais perigoso
- Ah, aquele som suave do ChatGPT nos confortando sobre como estamos certos e somos inteligentes… como ele poderia alucinar? Com o 5.5, especialmente, certamente não
- Você só buscou 3 opiniões sobre o carro? Por que não 50? Talvez, reunindo mais informações, desse para encontrar um sinal mais útil
  Sei que obter opiniões de mecânicos consome muito tempo. Mas com IA não é assim
Há alguns anos, antes da febre da IA, já recebi um diagnóstico equivocado de tuberculose. Eu tinha tosse crônica, e um radiologista terceirizado de uma clínica encontrou sinais de tuberculose. O resultado foi enviado, conforme a lei, ao hospital municipal de tuberculose, e os médicos de lá simplesmente aceitaram a conclusão da radiologia e disseram que eu deveria ficar por pelo menos 8 meses em um hospital com um regime rígido, quase como uma prisão
Não havia como recusar. Eu era tratado como uma espécie de risco biológico e, legalmente, tinha de cumprir
Antes da internação, procurei às pressas outro radiologista, que diagnosticou pneumonia. Enviei esse laudo ao médico responsável no hospital de tuberculose e, após revisão, eles concluíram que a primeira leitura estava errada. Descobri que os médicos de lá não sabiam ler as imagens de fato e simplesmente confiavam no que o radiologista dizia
O engraçado é que eles já tinham me colocado no registro oficial de tuberculose e não queriam admitir o erro. Em vez disso, emitiram outro documento dizendo que “naquele hospital, a tuberculose foi curada em 7 dias”. Talvez eu seja a única pessoa daquele país que venceu a tuberculose em uma semana
Se é difícil confiar em radiologistas ou médicos, vale procurar outro médico quando o custo permitir. Dá para comparar as conclusões e ver se coincidem. Se dois médicos ou radiologistas sem relação entre si dizem a mesma coisa, há uma boa chance de estar bem perto da verdade
Só não sei muito bem em quem se deve confiar mais, em IA ou em humanos. A IA alucina, mas eu também já recebi diagnósticos errados de humanos várias vezes
- Como isso é possível? Não dá para diagnosticar tuberculose só olhando a imagem, e um hospital de tuberculose deveria saber disso
- Passei por algo parecido. Meu filho teve pneumonia e, mesmo depois de tomar antibiótico por 10 dias, a dor continuava. Levei o raio-X a três médicos, e só um fez o diagnóstico correto de derrame pleural
  Acho que deveria haver um lugar centralizado onde especialistas de altíssimo nível analisassem as imagens, em vez de deixar cada médico olhar por conta própria
Acho interessante ver como as pessoas aqui esperam que o corpo humano seja como uma função determinística, em que a entrada X deve produzir a saída Y. Essa expectativa se estende ao diagnóstico, imaginando que vários especialistas darão o mesmo diagnóstico para o mesmo problema
Considerando a complexidade do corpo humano, um diagnóstico é o resultado da combinação de experiência acumulada ao longo da carreira, conhecimento, métodos diagnósticos e equipamentos. Um título como “médico” é uma certificação do Estado de que “passou na prova, então é seguro deixá-lo atender”, mas isso não significa que todos atendam da mesma forma
Alguns especialistas atualizam seus conhecimentos todo mês; outros, todo ano; outros, nunca. Há variáveis demais: região, política e até o clima
Por isso, a escolha do especialista é realmente importante. É preciso buscar a reputação da pessoa quanto ao modo de atendimento e à área de especialidade. Você só consegue maximizar a chance de receber o diagnóstico correto; não deve esperar que alguém esteja certo só porque é chamado de médico
- Em uma comunidade formada principalmente por pessoas que trabalham criando esse tipo de função, é previsível que esperem que o corpo humano também seja como uma função determinística
- Não entendi bem o ponto. A ideia é que, como a medicina é inerentemente sujeita a erros, a IA — especialmente um conjunto de várias IAs especializadas — tem mais chance de dar um diagnóstico melhor?
Vi muitos amigos e familiares receberem recomendação de cirurgia quase imediatamente por dor no ombro. Para quem vive de fazer cirurgias, é comum que cirurgia vire a opção padrão
Eu também tive uma dor considerável no ombro por um tempo, e ela não melhorou durante meses. Eu não queria operar, então tentei massagem e acupuntura, mas não ajudaram em nada
O que resolveu foi focar de verdade em barras fixas. No começo eu não conseguia fazer nenhuma, então comecei só ficando pendurado e fazendo scapular pull-ups, e fui avançando aos poucos para barras normais. Depois que consegui fazer algumas por série, passei a treinar no estilo “grease-the-groove”
Quando cheguei a cerca de 17 por série, parei com a programação de treino; hoje faço, distribuídas ao longo do dia, 6 séries de 7 a 8 repetições, 3 vezes por semana. Também faço exercícios de mobilidade para o ombro https://www.youtube.com/watch?v=vP8YmmRMz6I
Quando fico preguiçoso e deixo de fazer, o desconforto inevitavelmente volta, mas desaparece quando retomo os exercícios de fortalecimento
- Tive problemas no ombro por anos. Fiz fisioterapia e também exercícios de puxar/empurrar, mas esses exercícios pioravam a dor. Se eu não fizesse exercícios que usassem o ombro, ficava “ok”
- Em contrapartida, quando tive um problema no manguito rotador, o cirurgião recomendou alguns meses de fisioterapia antes de passar a faca. Funcionou. Continuei fazendo musculação com foco no movimento correto do ombro, e a dor também não voltou
  Parece que, quando o paciente vai atrás de uma solução rápida, é esse tipo de solução que recebe. Quando estuda um pouco e vai atrás da melhor solução para si, em geral acaba conseguindo isso
Cerca de 2 anos atrás, usei o “deep research” do ChatGPT para investigar uma sinusite crônica com a qual eu vinha brigando havia quase 3 anos. Depois de passar por 3 clínicos gerais e 3 consultas com otorrinolaringologistas, coloquei na IA todas as observações que eu tinha
Em particular, o otorrino tinha olhado meus seios da face com um endoscópio e visto evidências de reação alérgica, mas depois, após o teste de alergia, concluiu que eu não poderia ser tratado com remédio para alergia — e não conseguiu explicar o motivo. Perguntei algumas vezes, mas ele não respondeu
O ChatGPT encontrou um estudo do NIH mostrando que 20% das pessoas apresentam reações alérgicas localizadas em uma parte específica do corpo, que podem não aparecer em um teste cutâneo por puntura no ombro. Quando perguntei a ele, ele só disse que “alergias não funcionam assim”. E ficou por isso. Nem pensou em olhar o estudo
Ele prescreveu CPAP e tratamentos regulares com nebulizador. Como detalhe paralelo, a empresa de CPAP me mandou uma mensagem de texto, mas eu não conseguia saber se era phishing; perguntei quem eram, mas não tive resposta
Então resolvi simplesmente tentar tomar um antialérgico de segunda geração todos os dias
A sinusite desapareceu. Antes, eu tinha uma sinusite forte pelo menos a cada trimestre. Talvez, como aquele médico disse, alergias não funcionem desse jeito, mas o remédio para alergia resolveu completamente o meu problema
Sou grato por isso. Alguns anos antes, tentei usar CPAP corretamente por um mês, mas não consegui me acostumar de jeito nenhum, e meu sono ficou péssimo
- Há muita coisa para destrinchar aqui, e era uma situação desfavorável desde o começo. Primeiro, quando um exame diz X, é realmente difícil negar X. Isso não é um problema exclusivo da medicina, é um problema humano em geral. Somos ruins em revisitar ou revisar decisões, e piores ainda em considerar a possibilidade de revertê-las
  Depois vêm a responsabilidade e o tempo. Especialmente em uma área de alto risco como a medicina, quando você pede a alguém que reavalie uma decisão, ninguém tem tempo nem vontade de abrir essa bagunça
  Se você realmente quer ter sucesso, precisa propor o exame indicado pelo estudo antes que o ciclo diagnóstico se feche, antes que os médicos consolidem seu caso sobre você. Assim é que há maior chance de verem o que precisa ser visto
  É melhor simplesmente dizer com franqueza que você trouxe uma hipótese. Os médicos percebem muito rápido quando estão sendo conduzidos, mas demoram mais para perceber que o paciente de fato estava certo. Em um sistema em que pessoas sobrecarregadas estão fazendo o melhor que podem, é assim que é preciso agir
- Tomar antialérgico todos os dias está associado a um aumento significativo do risco de Alzheimer de início precoce. Que bom que você encontrou algo que funciona, mas talvez também valha a pena tentar imunoterapia com alérgenos
Como radiologista, achei que Claude e ChatGPT são realmente péssimos em interpretar ressonâncias magnéticas, e eu não confiaria neles de forma alguma. Eles têm pontos fortes ao pesquisar material baseado em texto, mas ainda não interpretam imagens radiológicas bem o suficiente
- A IA compensa menos no laudo e mais no aprimoramento das imagens
  Atualmente, o software de RM Deep Resolve, da Siemens, gera sinal (cerca de 50% a mais), depois gera um de cada dois pixels e, em sequências 3D, gera uma de cada duas fatias. Ele reduz cerca de 59% do tempo de cada sequência, e é realmente muito bom
  Sou técnico de RM
- É parecido com as pessoas esperarem que o ChatGPT seja realmente bom em xadrez. Motores de xadrez com desempenho sobre-humano existem há décadas, então a lógica é que um LLM de fronteira moderno treinado com bilhões de dólares obviamente acharia isso fácil
  Na verdade, tenho curiosidade sobre o ELO do ChatGPT 5.5. Pelo conteúdo que ele absorveu, não ficaria muito surpreso se, só com uma compreensão básica dos princípios do xadrez, ele ficasse acima de 2000
Não entendo a reação negativa. A medicina atual só funciona quando tanto o médico quanto o paciente usam a cabeça. Quase nunca tive um caso em que o médico simplesmente me deu um diagnóstico e eu segui o dia. Quando isso aconteceu, em geral era porque eu tinha certeza do problema e sabia do que precisava. O médico era a barreira que impedia o acesso ao tratamento
Dr. GPT é uma boa ferramenta de brainstorming. Ele sintetiza informações de uma forma difícil de fazer apenas com os materiais originais. Mas também é preciso forçá-lo a dizer “isso não faz sentido”
Acho fraca a ideia de que “os médicos não sabem o conhecimento mais recente”. Considerando a densidade de tokens no pré-treinamento e a forma como os datasets de pós-treinamento são compostos, levaria muito tempo para ele se adaptar a uma mudança fundamental. Se tivéssemos esquecido o tratamento do escorbuto, quantos artigos seriam necessários para ele se adaptar à nova descoberta?
Eu não confiaria em IA para imagens. Mas uma vez o ChatGPT, olhando apenas o texto de um laudo de RM, disse que havia grande probabilidade de o laudo estar muito errado e sugeriu outro diagnóstico. Ele insistiu bastante, então procurei outro médico e refiz os exames. Resumindo: o ChatGPT estava certo
Reforçando: isso é apenas uma experiência isolada de uma pessoa, então não significa muita coisa
- Como anedota, coloquei no Gemini Pro a imagem de um paciente com herpes-zóster que o médico havia dito ser outra doença; ele deu o diagnóstico correto e, graças a isso, o tratamento adequado foi feito e a pessoa melhorou
  Não entendo por que médicos não ao menos fazem um prompt em um LLM antes de dizerem algo errado. É orgulho?
  Entendo no caso da radiologia, que precisa de redes neurais convolucionais especializadas, mas isso vale ainda mais para problemas mais próximos de uma base de conhecimento
- Acho que uma boa parte da lacuna visual vem do fato de que, em imagens, é menos estruturado onde se deve prestar atenção. Anedoticamente, modelos pequenos com fine-tuning do qwen, por exemplo modelos com menos de 10 bilhões de parâmetros, também elevam para 90% uma precisão que no modelo-base ficava abaixo de 30%. Já vendi modelos assim para tarefas de back-office baseadas em desempenho
  Acho que veremos muitos VLMs especializados que entregam valor real
- Alguns dias atrás, o ChatGPT Enterprise disse que o kernel 7.0.2 era mais antigo que o 6.69
  Esses brinquedos não são confiáveis de jeito nenhum. Não quer dizer que sejam inúteis, mas não dá para confiar neles

Obtendo uma segunda opinião do meu MRI com Claude Code

Diagnóstico e tratamento de MRI conduzidos rapidamente

O problema de base clínica apontado pelo GPT 5.5 Pro

Analisando a MRI com Opus 4.8 no Claude Code

Divergência sobre a existência da ruptura na primeira análise

Nova arbitragem entre leitura humana e leitura por IA

As escolhas que restam após a segunda opinião da IA

Leituras relacionadas

1 comentários

Opiniões do Hacker News