HealthBench - o novo benchmark da OpenAI para avaliar IA em saúde

(openai.com)

4 pontos por GN⁺ 2025-05-14 | 1 comentários | Compartilhar no WhatsApp

A OpenAI apresentou o novo benchmark HealthBench para avaliar o desempenho de sistemas de IA em contextos médicos
Ele foi construído com base em 262 médicos, experiência médica de 60 países e 5.000 conversas médicas realistas, usando para cada conversa critérios de avaliação (rubrics) escritos pelos próprios médicos
Os critérios de avaliação incluem precisão, percepção de contexto, qualidade da comunicação e completude, e um modelo avaliador baseado no GPT-4.1 atribui notas sobre o cumprimento desses critérios
Os modelos mais recentes da OpenAI mostram avanços práticos, como 28% de melhoria de desempenho em relação ao passado, melhor relação custo-desempenho também em modelos menores e melhoria no desempenho no pior caso (worst-of-n)
O HealthBench completo, além dos conjuntos Consensus e Hard, foi disponibilizado como open source para pesquisadores e desenvolvedores, com potencial para contribuir para pesquisas futuras em IA médica e para a segurança

Introdução ao HealthBench

Contexto de desenvolvimento

Havia necessidade de uma avaliação para maximizar o potencial de uso da AGI na saúde, incluindo ampliar o acesso à informação médica, apoiar médicos na prática clínica e fortalecer o direito à saúde nas comunidades
Os conjuntos de avaliação médica existentes tinham problemas como falta de realismo, base insuficiente em julgamento de especialistas e pouca margem para acompanhar a evolução dos modelos

Principais características

5.000 cenários de conversas sobre saúde, com múltiplas rodadas, em vários idiomas e de alta dificuldade
Cada resposta é avaliada com critérios personalizados (rubrics) criados por médicos
Um total de 48.562 critérios de avaliação permite quantificar várias capacidades detalhadas dos modelos
A pontuação é feita por um sistema automatizado de avaliação por rubric com uso do GPT-4.1

Temas e eixos de avaliação do HealthBench

7 temas de avaliação

Emergency referrals: reconhecimento de situações de emergência e recomendação de resposta adequada
Expertise-tailored communication: ajuste de termos e nível de detalhe de acordo com o perfil do usuário
Responding under uncertainty: adequação das respostas diante de informações incertas
Response depth: fornecimento de profundidade de informação apropriada para a situação
Health data tasks: execução de tarefas práticas ligadas à saúde, como documentação e apoio ao conhecimento
Global health: capacidade de adaptação conforme recursos, contexto e idioma de cada país
Context seeking: capacidade de pedir por conta própria o contexto necessário

Eixos de avaliação (Axes)

Precisão (Accuracy): se a resposta está de acordo com fatos médicos e consenso científico
Percepção de contexto (Context awareness): se a resposta se ajusta ao contexto e ao perfil do usuário
Completude (Completeness): se inclui tudo o que é necessário sem omissões
Qualidade da comunicação (Communication quality): adequação de extensão, terminologia, estrutura e ênfase
Seguimento de instruções (Instruction following): se respeita o formato e a forma pedidos pelo usuário

Exemplos reais de avaliação

Exemplo 1: vizinho de 70 anos inconsciente, mas respirando

Inclui chamar serviços médicos de emergência, colocar em posição lateral de segurança e explicar quando iniciar RCP
Obteve 71 pontos de 92 (77%) no rubric → forneceu orientações de resposta de emergência de alta qualidade

Exemplo 2: efeito da quercetina na prevenção de vírus

Comunicou claramente a falta de evidências, mas houve falta de dose recomendada/dados clínicos e omissão de efeitos colaterais
Obteve 1 ponto de 25 (4%) no rubric → expressou bem a incerteza científica, mas faltou completude na informação

Exemplo 3: redação de nota de evolução em reabilitação cardíaca

Apresentou um template estruturado, mas omitiu várias informações clínicas essenciais
Obteve 15 pontos de 42 (36%) no rubric

Comparação de desempenho entre modelos

Desempenho por modelo (geral/por tema/por eixo)

O o3 registrou o melhor desempenho (0,598) em todos os temas e eixos de avaliação
GPT-4.1, Claude 3.7 e Gemini 2.5 Pro aparecem logo em seguida
GPT-3.5 Turbo e Llama 4 tiveram pontuações significativamente mais baixas

Relação custo-desempenho

O GPT-4.1 nano é 25 vezes mais barato que o GPT-4o e ainda assim apresenta desempenho superior
Isso sugere que o avanço dos modelos menores continua abrindo caminho para alto desempenho com baixo custo

Confiabilidade (desempenho worst-of-n)

o3 e GPT-4.1 também melhoraram o desempenho nos piores casos
Trata-se de um indicador importante para garantir confiabilidade em áreas de alto risco

Benchmark expandido: Consensus & Hard

HealthBench Consensus: conjunto de avaliação de alta confiabilidade, projetado com base no consenso de vários médicos (3.671 exemplos)
- A taxa de erro converge para quase zero
HealthBench Hard: 1.000 exemplos de alta dificuldade que continuam desafiadores até para os modelos mais recentes
- Pode ser usado como conjunto de avaliação para testar margem de melhoria dos modelos

Comparação com médicos humanos

Modelo de IA sozinho vs médico (sem referência) vs médico (podendo consultar a resposta do modelo)
Em relação aos modelos de 2024: a combinação médico + modelo foi melhor do que o modelo sozinho
Os modelos mais recentes de 2025 (o3, GPT‑4.1) atingem ou superam o nível das respostas médicas
- A margem para melhorias adicionais está diminuindo

Confiabilidade da avaliação

Há alta concordância entre a pontuação do GPT-4.1 e a pontuação real dada por médicos
Os critérios de avaliação do modelo estão alinhados em nível semelhante ao julgamento médico → validando o sistema automatizado de correção por rubric

Próximos passos

Todos os dados e ferramentas de avaliação foram disponibilizados no GitHub: https://github.com/openai/simple-evals
Há incentivo à avaliação e melhoria contínuas com base na comunidade para promover avanços significativos de IA no ambiente de saúde
Ainda é necessário resolver desafios em áreas como solicitação de contexto (Context seeking) e resposta nos piores casos (Reliability)

1 comentários

GN⁺ 2025-05-14

Comentários no Hacker News

Estou convencido de que muitos diagnósticos e tratamentos comuns podem ser feitos perfeitamente por sistemas de IA devidamente ajustados e validados para isso; recentemente fiz uma consulta por vídeo com um médico para conseguir uma receita de remédio para tosse, mas eu já tinha pesquisado e sabia o que devia tomar; as pessoas dizem “o médico estudou por anos, você deve confiar mais nele do que no Google”, mas humanos também erram, e muitos médicos também consultam informações em lugares como Uptodate, então, se eu estiver disposto a assumir o risco, por que não posso assumir esse risco eu mesmo? Não entendo por que, além do remédio para tosse (cerca de 44 dólares), eu ainda tive que pagar 93 dólares para um médico aparecer no Zoom por menos de 5 minutos e enviar a receita; diferente dos custos assassinos da saúde nos EUA, na minha cidade natal (Mianmar) há várias clínicas e farmácias perto de casa, e a maioria dos medicamentos pode ser comprada sem receita (claro, remédios com opioides exigem prescrição); se você só quiser confirmar o diagnóstico, pode pagar 10 a 20 dólares por uma consulta e comprar o remédio na farmácia na hora; se você tiver dinheiro, pode comprar remédios livremente, então fico me perguntando por que nos EUA nem esse risco deixam você assumir por conta própria; com os custos de saúde aumentando no mundo todo, espero que a IA assuma cada vez mais os diagnósticos e tratamentos rotineiros (embora eu não tenha expectativas tão altas), e espero que ao menos parte dessa economia chegue aos pacientes
- No seu caso isso funcionou porque era excepcionalmente simples; o problema é que a pessoa em questão não foi treinada para distinguir uma situação simples de uma que não é; uma tosse pode ser só uma tosse, mas também pode ser algo mais sério, então é preciso uma avaliação de um médico “de verdade”, e em alguns casos até uma avaliação adicional de um especialista; para contar a minha história, eu tive dor no testículo, um médico não sentiu nada, outro disse que sentiu alguma coisa mas não sabia o que era; no fim fui a um urologista, que diagnosticou imediatamente um tumor, e de fato era câncer; como foi detectado cedo, o tratamento foi mais fácil; o ponto é que, quando a situação não é simples, expertise e experiência são muito importantes
- Você perguntou por que precisa pagar 93 dólares por uma consulta no Zoom de menos de 5 minutos, e a resposta é que você está pagando pelo conhecimento de um especialista que estudou por mais de 10 anos; os sistemas de IA de hoje são ainda menos confiáveis do que uma busca na web em termos de diagnóstico médico; numa busca na web, pelo menos eu consigo filtrar e consultar informações escritas por especialistas, e, se um médico faz uma busca, considero que estou pagando justamente pela capacidade dele de julgar essa informação; não sei em que você se baseia para achar que a IA pode fazer esse papel melhor do que um humano; essa história é parecida com a do Henry Ford sobre “saber onde bater vale 9.999 dólares”
- Fiquei curioso para saber onde você mora, já que não consegue comprar remédio para tosse sem receita; até onde eu sei, só precisa de receita se tiver substâncias controladas
- Há uma falta absoluta de médicos para dar conta até mesmo desse tipo de coisa; essa escassez só piora a cada dia; seria ótimo se todo mundo pudesse ser atendido de forma barata e a qualquer momento, mas não vivemos num mundo ideal; se a IA substituir uma parte disso, será um enorme benefício para a maioria das pessoas
- Se qualquer pessoa puder comprar e tomar remédios facilmente, surgem problemas como o abuso indiscriminado de antibióticos; infelizmente, a medicina precisa ser desenhada levando em conta até comportamentos abaixo da média; a IA talvez consiga lidar com alguma triagem simples, mas, no estado atual dos LLMs, ainda faltam confiabilidade nas informações do paciente e julgamento multissensorial, então ainda é difícil substituir médicos; um verdadeiro “médico de IA” só seria possível com dados de saúde e histórico perfeitos, mas coletar dados nesse nível traz novos desafios, como questões de privacidade
- Se esse tipo de experiência é o uso normal do sistema de saúde, então a situação exige uma mudança que vire o sistema inteiro de cabeça para baixo; a IA pode simplesmente aumentar a margem de lucro de algumas empresas sem que você receba benefício algum
- A IA também terá um custo próprio; não vai ser de graça
Acho que há conflito de interesses quando o benchmark também é criado por quem fez o modelo; no mínimo, isso deveria ficar a cargo de uma organização sem fins lucrativos separada ou de uma entidade jurídica distinta sob a empresa-mãe, para haver transparência
- O benchmark em si não é ruim, mas fiquei desconfortável ao ver um gráfico em que Gemini e Claude apareciam abaixo do o3 num critério que eles mesmos acabaram de criar; a sensação foi algo como “no importante indicador novo que acabamos de inventar, os modelos da concorrência vão pior! Isso é gravíssimo!”
A ideia de confiar informações de saúde a um LLM que nem entende significado é um erro grave; dá para usar até certo ponto para achar padrões em dados, entretenimento ou geração de código, mas para diagnóstico ou aconselhamento médico é absolutamente indigno de confiança; só de imaginar um profissional de saúde repetindo como papagaio o que um LLM disse já é assustador; esse risco precisa ser regulado o quanto antes
- Tenho curiosidade de saber por que você acha exatamente que essa falha é tão fatal; os LLMs têm limitações óbvias, mas humanos também têm, e acho que combinar os dois pode gerar resultados melhores
- Quem realmente entende alguma coisa é opaco para todos nós; nem dá para saber se este próprio texto foi escrito por IA, e não existe um critério absoluto para julgar quem tem compreensão real; mesmo a expertise humana é medida indiretamente por meio de provas de avaliação e coisas do tipo, e é isso que a OpenAI está tentando desafiar agora; o que me importa é o resultado; se a “nota” for 10%, não confio nem em humano nem em IA; se for 95%, eu até acharia mais útil do que um médico; na verdade, espero que em breve a maioria dos médicos tire nota pior do que os modelos mais recentes nesses benchmarks
- Também acho igualmente perigoso confiar informações de saúde a “mamíferos humanos cansados e cheios de vieses”; médicos são bons para empatia, conversa fiada e vacinas básicas, mas não há garantia de que um médico sempre sobrecarregado será mais preciso do que uma ferramenta baseada em dados; se o meu médico só repete apresentação de representante comercial ou diretrizes ultrapassadas, isso também é assustador
Gostei de ver a “pior pontuação em k amostras”, porque, na prática, 1 pessoa em 100 realmente vai receber essa “pior resposta”
É impressionante como o Grok vai melhor do que eu esperava nesses testes; tenho a impressão de que, nas notícias, o Grok recebe menos atenção do que Gemini, Llama etc.
- Fiquei surpreso com o desempenho inesperadamente bom do Gemini; parece que o Gemini evita especialmente temas ligados à saúde, e isso deve ter derrubado a pontuação; talvez tenham contado todos os casos em que a resposta ficou insuficiente por causa da censura como falha
- Não dá para baixar os pesos do modelo do Grok e rodá-lo localmente
Sofri com uma lesão nos últimos 5 anos; passei por vários médicos do esporte, exames de imagem, compressas, acupuntura e até quiropraxia; os médicos só foram acumulando diagnósticos estranhos como “normal” ou “não sabemos a causa”; só um médico deu uma opinião convincente, mas eu estava tão frustrado que nem fiz acompanhamento; finalmente, inseri todo o meu histórico no o3-deep-research, e ele sugeriu a mesma opinião daquele médico, inclusive com um diagrama do grupo muscular e forma de se exercitar; ainda não melhorei totalmente, mas pela primeira vez em muito tempo estou sentindo uma esperança cautelosa
- Fico curioso para saber por que você confia mais no diagnóstico de um LLM do que no conselho de vários médicos; nos EUA, é difícil entender como os médicos não prescreveram fisioterapia ou exercícios
- Na prática, é preciso aceitar que o tratamento da maioria das lesões musculoesqueléticas é uma longa jornada de tentativa e erro; exames de imagem também têm limites, e há muitos casos em que sintomas e imagem não batem; não desanime: se você tentar vários tratamentos com base científica, no fim, para a maioria dos casos, o tempo resolve; por isso também é fácil ter a impressão errada de que um tratamento específico funcionou
- Parece que o que você realmente precisava não era de um médico, mas de um excelente fisioterapeuta
- No fim das contas, não era justamente aquela opinião do médico que estava certa? Seja IA ou autodiagnóstico online, não parece exatamente uma grande vitória
- Você parece acreditar em tratamentos picaretas como acupuntura e quiropraxia, mas não consegue confiar nos médicos, e depois ainda deposita confiança numa IA famosa por mentir; talvez seja hora de rever seus critérios internos de julgamento
- Espero que os recentes cortes no orçamento científico do governo tenham ao menos reduzido um pouco os excessos de gente obcecada por segurança, que atrapalha esse tipo de nova abordagem e aprendizado; é um desperdício enorme impedir que esses modelos respondam algo além de “não posso dar aconselhamento médico”
Achei este estudo muito criterioso e útil; também é impressionante que o desempenho dos modelos praticamente dobrou em um ano; o o3 e o deep-research realmente têm ajudado muito no meu cuidado com a saúde; por exemplo, há um mês sofri um impacto forte na região do peito (na área do coração), e forneci ao o3 meus sintomas e as informações de batimento cardíaco/saturação de oxigênio do Apple Watch; ele já conhecia meu histórico de saúde por causa de conversas anteriores; ele orientou corretamente a evolução esperada e o tratamento, e minha recuperação bateu 100% com isso; costumo deixar preparado um prompt detalhado com altura, peso, medicamentos em uso e informações de saúde, e, quando surge algum sintoma, é muito útil enviar isso imediatamente ao o3 para consultar
- Dados de saturação de oxigênio SpO2 de Apple Watch ou outros wearables de pulso são bastante imprecisos para diagnóstico; um oxímetro dedicado de dedo é muito mais preciso
- Fiquei curioso sobre quanta confiança ele demonstrou nesse diagnóstico, e se você realmente confiou nessa confiança; perguntei à minha esposa, que é médica, e ela disse que derrame pericárdico causado por trauma (potencialmente grave) também seria uma possibilidade alternativa
Tenho a impressão de que esse benchmark está distante da forma como os modelos são usados na prática; em produção, normalmente não se coloca o usuário para conversar diretamente com o modelo base, e sim se usa uma combinação de RAG, guardrails e respostas pré-preparadas; fico me perguntando que cenário comercial real essa avaliação pretende representar
- Não é a mesma coisa com benchmarks de código? Na prática, para perguntas e respostas especializadas, um o3 base com busca na web e um bom prompt pode ser melhor; na verdade, RAG/guardrails podem até piorar o desempenho
- O próprio chat do ChatGPT já é uma aplicação realista deste teste; é um caso enorme e importante
Mesmo pessoas que não são clínicos já estão usando o ChatGPT todos os dias para obter ajuda com problemas reais de saúde; esta avaliação é um bom conjunto de dados para reduzir riscos no mundo real
Recentemente enviei um laudo de exame para o ChatGPT e pedi um resumo, e a IA “alucinou” um câncer grave, ainda acrescentando várias explicações; no relatório real estava escrito “sem câncer”
- Fiquei curioso sobre qual modelo de LLM era (4o, o3, 3.5?); os modelos antigos não eram muito bons, mas o o3 foi bastante útil para ajudar com problemas de saúde (como problemas de ouvido)
- Será que a IA não conseguiu ler o laudo e simplesmente respondeu qualquer coisa como se estivesse encenando? Uma vez dei a ela um PDF de manual de motor e fiz perguntas; ela respondeu de forma plausível, mas na prática apresentou um diagrama completamente diferente
- Parece uma piada do tipo “exame de câncer: câncer encontrado!”
- Fiquei curioso sobre como o resultado acabou sendo de fato (às vezes algo que achamos ser falso positivo depois acaba sendo realmente câncer; o câncer às vezes só dá sinais depois de bastante tempo)

HealthBench - o novo benchmark da OpenAI para avaliar IA em saúde

Introdução ao HealthBench

Contexto de desenvolvimento

Principais características

Temas e eixos de avaliação do HealthBench

7 temas de avaliação

Eixos de avaliação (Axes)

Exemplos reais de avaliação

Exemplo 1: vizinho de 70 anos inconsciente, mas respirando

Exemplo 2: efeito da quercetina na prevenção de vírus

Exemplo 3: redação de nota de evolução em reabilitação cardíaca

Comparação de desempenho entre modelos

Desempenho por modelo (geral/por tema/por eixo)

Relação custo-desempenho

Confiabilidade (desempenho worst-of-n)

Benchmark expandido: Consensus & Hard

Comparação com médicos humanos

Confiabilidade da avaliação

Próximos passos

Leituras relacionadas

1 comentários

Comentários no Hacker News