Auditores de Ontário dizem que redatores de notas médicas com IA erram repetidamente fatos básicos

(theregister.com)

1 pontos por GN⁺ 5 시간 전 | 1 comentários | Compartilhar no WhatsApp

Foi constatado que, em 20 sistemas de AI Scribe aprovados por Ontário para uso por profissionais de saúde, houve omissão de informações essenciais, inserção de desinformação e geração de conteúdo que não foi dito
A avaliação de aquisição comparou gravações simuladas de médico e paciente com notas clínicas geradas por IA, revisadas por profissionais de saúde, e 9 sistemas chegaram a inventar sugestões de plano de tratamento
12 sistemas incluíram informações incorretas sobre medicamentos, e 17 deixaram passar detalhes centrais de saúde mental do paciente que apareciam na gravação
A OntarioMD recomendou que os médicos revisem manualmente as notas feitas por IA, mas nenhum dos sistemas aprovados tinha um recurso obrigatório de confirmação de precisão
Na pontuação da avaliação, ter base local representava 30%, enquanto a precisão das notas médicas valia 4%; controle de viés e avaliação de risco e privacidade ficaram em 2% cada

Relatório de auditoria e método de avaliação

O relatório sobre o uso de IA nos serviços públicos, publicado pelo Office of the Auditor General of Ontario do Canadá, incluiu a avaliação do programa AI Scribe do Ministério da Saúde de Ontário
O programa trata da aquisição de ferramentas de IA para redação de notas voltadas a médicos, enfermeiros especializados e outros profissionais de saúde
No processo de aquisição, foram usadas gravações simuladas de médico e paciente, e profissionais de saúde compararam o áudio original com as notas clínicas geradas por IA para julgar a precisão

Erros identificados

Entre os 20 sistemas, 9 inventaram conteúdos que não foram abordados na gravação e geraram sugestões de plano de tratamento para o paciente
Relatórios de exemplo continham desinformação potencialmente grave, como “nenhuma massa foi encontrada” ou “o paciente parecia ansioso”, embora isso não tivesse sido discutido na gravação
12 dos 20 sistemas inseriram informações incorretas sobre medicamentos nas notas do paciente
17 dos 20 sistemas deixaram passar detalhes centrais relacionados à saúde mental do paciente que haviam sido mencionados na gravação
6 sistemas omitiram total ou parcialmente os problemas de saúde mental do paciente ou deixaram de registrar detalhes importantes

Revisão manual e proteções

A OntarioMD, que apoia a adoção de novas tecnologias por médicos e participou do processo de aquisição do AI Scribe, recomendou que os médicos revisem manualmente a precisão das notas geradas por IA
Segundo o relatório de auditoria, nenhum dos sistemas AI Scribe aprovados possuía um mecanismo obrigatório de confirmação de que o médico verificou a precisão

Problema nos pesos da avaliação

Boa parte do baixo desempenho está ligada ao problema dos pesos da avaliação
30% da pontuação da avaliação da plataforma foi atribuída à presença de base local em Ontário, enquanto a precisão das notas médicas respondeu por apenas 4% da nota total
O controle de viés valia 2% da pontuação total; a avaliação de ameaças, riscos e privacidade, 2%; e a conformidade com SOC 2 Type 2, 4%
Esses pesos podem levar à seleção de fornecedores capazes de produzir registros médicos imprecisos ou enviesados, ou que não tenham proteções suficientes para resguardar informações sensíveis de saúde pessoal

Resposta do Ministério da Saúde de Ontário

O The Register procurou o Ontario Health Ministry para comentar o relatório e dizer se pretende seguir as recomendações do programa AI Scribe, mas não recebeu resposta imediata
Um porta-voz do ministério disse à CBC na quarta-feira que mais de 5.000 médicos em Ontário participam do programa AI Scribe e que não há conhecimento de relatos de danos a pacientes relacionados à tecnologia

1 comentários

GN⁺ 5 시간 전

Comentários do Hacker News

No momento, minha visão sobre o futuro da tecnologia de IA em geral mudou de pessimista para otimista, mas continua me incomodando muito o fato de que erros básicos de fatos persistem mesmo enquanto os modelos melhoram bastante
Quando peço ao Claude Opus para criar uma receita de acordo com preferências e sabores, parece mágica, mas no instante em que ele erra um cálculo básico de unidade, como conversão entre colher de sopa e colher de chá, meu entusiasmo desaparece
É como um personagem de filme que parecia agir quase normalmente, mas tinha algo estranho e então se revela um zumbi; este caso do redator de notas também parece impressionantemente próximo de funcionar, só para falhar em detalhes importantes
Quando vejo esse tipo de falha, fico cada vez mais em dúvida se a IA desta geração, embora possa fazer coisas incríveis se bem administrada, realmente está no caminho certo para chegar à inteligência de verdade
- Isso mesmo. Existe uma lacuna entre capacidade e confiabilidade sobre a qual a indústria não fala muito bem
  A indústria de IA parece continuar enrolando quanto ao fato de que capacidade e confiabilidade são qualidades fundamentalmente diferentes. “Exato” e “confiável” costumam ser usados como se fossem sinônimos, mas mesmo que um modelo vá bem em benchmarks, ele ainda pode ser um risco em ambiente real de operação
  Os resultados mais recentes da METR também reagem fortemente ao aumento de capacidade, mas se fala menos que essa medição usa como critério uma taxa de sucesso de 50%. O indicador auxiliar com taxa de sucesso de 80% cobre uma faixa de tempo de tarefas muito mais curta: https://metr.org/
  Eu implemento sistemas de IA corporativos, mas nunca vi empresa nenhuma aceitar nem 50% de confiabilidade, muito menos 80%
- Eu era cético sobre LLMs serem o caminho certo para uma inteligência artificial geral, mas continuo me surpreendendo ao ver até onde dá para empurrar isso com expansão do modo de uso, harnesses para LLM e um desenho de contexto melhor
  Quando vejo LLMs praticamente projetando seus próprios prompts e contexto, não parece que vão precisar de orientação humana para sempre
  Para tarefas simples baseadas em fatos, com metodologia concreta, LLM não é a ferramenta certa, e não reconhecer essas tarefas e encaminhá-las para ferramentas que ajam de forma mais determinística é, para mim, uma falha do harness
  Como quando usamos uma “habilidade” na hora certa, certas tarefas precisam ser encaminhadas para ferramentas ou “cérebros” especializados
  O primeiro AGI provavelmente não será um único cérebro, mas sim um sistema composto por vários LLMs, harnesses, habilidades e subsistemas especializados por domínio e tarefa
- Se o Claude às vezes superestima valores de conversão, isso pode vir do fato de que a colher de sopa australiana é diferente da americana
  A colher de sopa australiana equivale a 4 colheres de chá/20 mL, enquanto a americana equivale a 3 colheres de chá/15 mL, então esse erro pode ser explicado em certa medida pela complexidade do mundo real
  Agora, se ele disser 3,14 colheres de chá ou 2 colheres de chá, aí já não sei
- Essa analogia me lembra os dedos e mãos estranhos dos modelos de geração de imagem de um ano atrás
  Hoje isso está quase resolvido, e agora eles até geram vídeos difíceis de distinguir da realidade
  Então isso me faz acreditar que esses erros sutis também vão continuar diminuindo, até ficarem difíceis de encontrar em quase todo tipo de tarefa
- Ontem usei o opus 4.6 via Copilot para fazer um brainstorming estilo rubber duck sobre um recurso grande que exigia bastante cuidado
  Tirei inspiração, mas ele também interpretou errado coisas bem básicas. Pode até ser limitação minha no uso, então não tenho certeza
No trabalho usamos um redator de notas por LLM para reuniões, e recentemente precisei intervir porque o CIO ficou muito irritado dizendo que um fornecedor prometeu algo e não cumpriu
O CIO não estava na reunião em que essa “promessa” teria sido feita, mas eu estava, e na realidade nada foi prometido; a conversa foi muito mais sutil do que o resumo detalhado do LLM sugeria
Também já vi ele se perder quando a discussão não é linear. Por exemplo, numa conversa de vai e vem com a equipe de SOC sobre alertas/incidentes recentes, ele pode até captar a ideia geral, mas se você depender da precisão, ele erra feio
Talvez funcione bem para registros iniciais feitos por uma enfermeira no hospital, como queixa principal, peso, altura e resumo de mudanças recentes, mas eu não confiaria nisso para um diálogo detalhado e técnico com um médico
Também, do ponto de vista de conformidade, imagino que hospitais prefeririam usar só a transcrição em vez de reescrever o prontuário, mas não sei ao certo
- Recentemente, no Dia das Mães, deixei uma mensagem de voz perdida para minha mãe; era algo humano e totalmente comum, tipo “pena que você não atendeu, pode me ligar hoje à noite ou amanhã quando for conveniente, a gente se fala em breve, te amo, tchau”
  Naquela noite minha mãe me ligou de volta, conversamos um pouco e então ela perguntou com cuidado: “Então... tinha alguma coisa que você realmente precisava me dizer?” e eu fiquei completamente sem entender
  Descobri que o resumo por LLM da notificação da chamada tinha transformado uma mensagem de voz cujo conteúdo era 75% amortecedores relacionais sem muito significado em uma frase de trabalho rígida e excessivamente formal, criando um clima sinistro
  Ele atribuiu significado demais a expressões individuais como “quero conversar” e “perguntar qual horário é possível”, fazendo parecer uma mensagem prolixa de alguém tentando dizer algo importante, vago e com senso de urgência
  Como resultado, minha mãe ficou um pouco preocupada, e eu fiquei irritado que uma despedida afetuosa tenha acabado assim. Parece que agora temos que enfiar um resumo por LLM meio cru em tudo
- Em todos os atendimentos médicos que já recebi, sempre pude corrigir o registro depois, e quase metade tinha erros relevantes
  Sempre confira o registro resumido imediatamente e, se houver problema, entre em contato com o médico o quanto antes
  Normalmente o médico consegue corrigir diretamente, e é melhor fazer isso enquanto todos ainda se lembram do caso
- Isso também me intriga. Não daria para simplesmente fazer uma transcrição e pronto?
  Especialmente se transcrições longas forem consultadas com frequência, uma pessoa poderia marcar manualmente, ao lado, os trechos que considerar importantes como resumo
  Pela minha experiência, esse tipo de interação geralmente não tem tanto ruído descartável assim, e os detalhes são bem importantes
- A transcrição é boa demais e, ao mesmo tempo, não é boa o suficiente. Quando entra conteúdo gerado, piora mais ainda
  O lado de “boa demais” é que, em muitos ambientes comerciais, a transcrição contínua é proibida. Certos detalhes específicos acabam ficando registrados de um jeito que facilita discovery e isso vira risco para o negócio
  Atas ou resumos podem omitir discussões sensíveis ou apresentar apenas o acordo sem especificidades, além de permitir uma defesa interpretativa com certa “ambiguidade estratégica”
  O lado de “não boa o suficiente” é que o reconhecimento de fala ainda é probabilístico. A saída real da avaliação pode conter dados de palavras e frases alternativas tanto quanto as palavras escolhidas, o que abre espaço para representar palavras que não foram ditas ou criar outra impressão
  O fato de que as pessoas tratam transcrições de reconhecimento de fala como se fossem um registro oficial piora ainda mais esse problema
  Se você ainda coloca em cima disso uma inferência generativa como resumo, os dois problemas aumentam. Do ponto de vista jurídico, pode até ser mais fácil aceitar um resumo com menos termos pesquisáveis específicos e com responsabilidade e especificidade diluídas
- Pela minha experiência, transcrição funciona bem razoavelmente e, nesses casos, a transcrição deve ser tratada como fato de referência
Isso aconteceu comigo recentemente. Recebi diagnóstico de joelho de corredor, mas no resumo da IA constava diagnóstico de osteoporose, dor no quadril e dificuldade para caminhar, e nada disso foi sequer dito ou insinuado
Transcrições precisam sempre ser verificadas. Em especial, transcritores com LLM com bastante frequência inserem sintomas comuns que não existiam de fato, ou afirmam diagnósticos comuns que batem com alguns detalhes mas não com outros
Um registro errado pode afetar fortemente atendimentos futuros e custos, então precisa ser corrigido
Tirando alguns casos simples e comuns, cerca de 50% dos resumos “de IA” que recebi estavam errados em algum ponto. Na maioria das vezes, apontavam sintomas inexistentes; às vezes, como neste caso, havia invenções mais graves
LLM não é um software comum de fala para texto e não deve ser tratado como tal. Ele às vezes insere frases inteiras que nunca existiram, e isso em prontuário médico nunca é aceitável
- Já vi na prática um resumo por LLM do Zoom atribuir a uma pessoa algo que ela não disse, e isso causou um problema sério
  Outra pessoa que não pôde participar da reunião leu o resumo depois, e isso gerou uma grande discussão, porque o assunto era sensível para ela por causa de um debate em andamento dentro da empresa
  Todos os presentes confirmaram que era um erro, mas o timing coincidiu de um jeito que ficou difícil para essa pessoa aceitar. O resumo por LLM apresentou o conteúdo de um jeito que parecia confirmar preocupações que alguns participantes antes vinham minimizando
  No fim, o caso escalou a ponto de a gestão criar uma política para não confiar em saídas generativas sem verificação independente; pelo menos parece que a lição foi aprendida
Mas quão precisos são os humanos? Eu peguei impressões dos meus prontuários médicos dos últimos 5 anos e aquilo era grosso como um livro
Acho difícil que uma pessoa leia tudo aquilo e faça algo significativo
Se você deixar uma ferramenta de IA examinar isso, claro que ela pode errar ou tirar conclusões sem base, mas a velocidade para verificar rapidamente, contestar as partes estranhas e chegar à resposta correta talvez ainda seja maior do que em qualquer reunião com enfermeira ou médico
Em vez de apontar só o que não é perfeito, talvez seja mais produtivo focar em como usar essas ferramentas e como contestar as partes estranhas ou erradas, para conseguir fazer mais coisas
O anotador de IA que usamos no trabalho também grava a reunião e coloca em cada nota links com timestamp para o ponto correspondente da gravação, para que você mesmo possa conferir diretamente
Em ambientes HIPAA isso deve ser mais complicado, mas em áreas críticas como saúde uma solução assim é essencial
- Ao projetar experiências de usuário com IA, chamamos isso de rastreabilidade da fonte
  É um elemento central para confiança, confiabilidade, conformidade e afins
  Se um sistema de software inclui essas saídas de LLM sem expor a origem delas de forma que uma pessoa possa avaliá-las e verificá-las, isso, na melhor hipótese, é uma experiência ruim para o usuário e, na pior, é perigoso
- Isso parece menos um “anotador” e mais um mecanismo de busca de trechos de áudio
  Se você quer precisão, no fim vai ter que ouvir tudo
- No fim, esse método exige uma de três coisas
  Ou alguém tem que ouvir a gravação inteira da reunião e verificar todas as notas, o que consome muito tempo e pessoal; ou os participantes têm que validar as notas pela memória, o que é vulnerável a erros; ou os participantes têm que comparar com suas próprias anotações, o que esvazia o propósito do anotador de IA
  Na prática, em qualquer contexto onde a precisão seja importante, o uso de IA em qualquer forma é inaceitável, mas é difícil fazer as pessoas admitirem isso
Como canadense, tenho esperança de que a IA possa liberar tempo dos médicos e aliviar a carga do sistema de saúde, mas isso assusta
Ainda não chegamos lá. Talvez no futuro seja necessário treinamento em IA para médicos
Já há até alguns condomínios com iPads de propriedade de instituições médicas para consulta online com médicos, o que contorna a burocracia do processo de agendamento com clínico geral
Acho que a direção da inovação em si está correta, mas precisa de tempo. Às vezes parece que a IA foi lançada cedo demais
- Acho que estamos aplicando essa tecnologia de forma errada. Em vez de jogar na transcrição e esperar uma saída perfeita, deveríamos usar os pontos fortes do LLM para melhorar a qualidade da entrada e beneficiar todo mundo
  Pensando em liberar tempo dos médicos, uma consulta costuma ser dispersa, o paciente fala de vários problemas ao mesmo tempo, e o médico precisa, sob pressão de tempo e obrigações regulatórias de explicação, comunicar o que afeta o tratamento
  Mesmo com uma transcrição perfeita, a estrutura já faz todos perderem; LLM não pode ser perfeito, ele só faz autocompletar
  Eu imagino o paciente interagindo com uma IA de triagem, que escute horas de divagação ou até falas durante uma crise de ansiedade, e então forneça ao médico um resumo das demandas confirmado por um responsável, junto com informações de triagem relevantes
  Nesse ponto, informações úteis como acesso a medicamentos ou políticas do plano também poderiam ser apresentadas após validação do médico, e o paciente poderia organizar e complementar sua compreensão do sistema sem pressão de tempo
  A ideia seria melhorar a qualidade da conversa, permitir que o médico foque mais no paciente e evitar que a necessidade de fala do paciente sobrecarregue o tratamento. A saúde envolve muito preenchimento de formulários e checklists, e acho que o autocompletar pode trazer eficiência à execução disso
Moro em Toronto, e meu médico sempre pergunta se pode usar um anotador de IA, e eu autorizo
No fim da consulta, o médico revisa e corrige as notas, e frequentemente reclama que precisa falar mais com o computador do que comigo
Ainda bem que ele é um bom médico e faz essa verificação posterior, mas isso dá a impressão de estar sendo empurrado à força para os médicos, mesmo quando eles não querem
Hoje em dia, quem participa de reuniões deveria dizer em voz alta algo como: “Aviso: as falas interpretadas por IA nesta reunião podem não ser precisas”
Eu faço isso em todas as reuniões
O relatório citado parece quase inútil. Não diz nada sobre taxa de erro nem tamanho da amostra, então não dá para saber se esse caso em que 9 de 20 sistemas “manipularam informação e sugeriram isso no plano de tratamento do paciente” aconteceu 10 em 10 vezes ou 1 em 1000
Mesmo assumindo que a taxa de erro do sistema seja alta, fico curioso sobre por que isso está sendo adotado
Os testes parecem muito fáceis, então se fosse tão ruim assim, não parece que médicos, hospitais ou governos seriam enganados a ponto de comprar
- Segundo a matéria, “30% da pontuação de avaliação da plataforma dependia apenas de ter base doméstica em Ontário, enquanto a exatidão do prontuário médico respondia por apenas 4% da nota total”
  Precisão na prática não era o foco principal da avaliação, então Ontário simplesmente não ligou para isso
Dizem que o programa AI Scribe iniciado pelo Ontario Ministry of Health cobre especificamente médicos, enfermeiros especializados e outros profissionais de saúde do setor mais amplo, o que me faz pensar que tipo de software o ministério vai empurrar
Provavelmente a maior parte dos requisitos deve ser algo como qualificações de SOC
A lista de fornecedores aprovados parece estar neste link: https://www.supplyontario.ca/vor/software/tender-20123-artif...

Auditores de Ontário dizem que redatores de notas médicas com IA erram repetidamente fatos básicos

Relatório de auditoria e método de avaliação

Erros identificados

Revisão manual e proteções

Problema nos pesos da avaliação

Resposta do Ministério da Saúde de Ontário

Leituras relacionadas

1 comentários

Comentários do Hacker News