Padrões de medicina: promessa e risco de avaliar ferramentas de inteligência artificial com fatores não idênticos

Em maio de 2024, o OpenAI foi lançado Healthbench,, um novo sistema de medição para o teste de capacidade clínica de grandes modelos de idiomas (LLMs), como o ChatGPT. Na superfície, isso pode parecer outra atualização artística. Mas para o mundo médico, este foi um momento importante – um reconhecimento calmo de que nossos métodos atuais de avaliar a inteligência médica artificial estão principalmente errados.
As manchetes tropeçaram no passado recente de que a inteligência artificial supera os médicos “ou” exames médicos “. A impressão que vem através da qual esses modelos são mais inteligentes, mais rápidos e talvez mais seguros. Mas esse ruído oculta um fato mais profundo. Em uma afirmação clara, os critérios usados para atingir essas reivindicações são baseados em testes projetados para avaliar a retenção da retenção da memória humana da memória da memória usada para avaliar.
Problema da calculadora
A calculadora pode dobrar dois números de seis números em segundos. Impressionante, sem dúvida. Mas isso significa que as calculadoras são melhores do que e entender mais a matemática do que os especialistas em matemática? Ou melhor do que a pessoa normal que leva alguns minutos para fazer a conta com uma caneta e papel?
Os modelos de idiomas são comemorados porque podem pedir respostas como livros didáticos no MCQs e preencher os vazios para fatos médicos e perguntas mais rapidamente do que professores médicos. Mas o medicamento não é um teste. Os médicos reais lidam com mistério, paixão e tomada de decisão à luz da incerteza. Eles ouvem, notam e se adaptam.
O paradoxo é que, embora a inteligência artificial supere os médicos em responder perguntas, ele ainda está lutando para gerar artigos curtos com uma condição que é a base dessas perguntas. Escrever um bom cenário clínico de pacientes reais na prática clínica requer sofrimento humano, liquidando detalhes não relacionados e enquadrando o dilema do diagnóstico no contexto. Até o momento, isso ainda é uma profunda capacidade humana.
Leia também: Por que a inteligência artificial nos cuidados de saúde precisa de protocolos de segurança estritos
Quais são os critérios atuais que você perde
MEDQA, PubMedqa, Perguntas organizadas multimedqa com uma resposta “correta” ou preencha as perguntas vazias. Eles avaliam a precisão real, mas ignoram as diferenças humanas. O paciente não diz: “Eu estava usando uma cadeira defeituosa e sentada na situação errada por longas horas e tenho dor de fundo ilimitada desde que a comprei. Portanto, escolha o melhor diagnóstico e dê o tratamento apropriado”. Eles apenas dizem: “Doutor, estou cansado. Não me sinto”. É aqui que começa o trabalho real.
Os ambientes clínicos são confusos. Os médicos lidam com doenças sobrepostas, sintomas misteriosos, notas incompletas e pacientes que não podem – ou não quererem contar a história completa. Lacunas de comunicação, sofrimento emocional e até fatores sociais e culturais afetam como os cuidados são expostos. No entanto, nossas medidas de avaliação ainda estão procurando precisão, clareza e saúde – as coisas que o mundo real raramente fornece.
Medição contra a realidade
Pode ser fácil determinar quem é a melhor mistura do mundo, contando apenas registros. Da mesma forma, os arqueiros podem ser classificados pelo número de compartilhamentos capturados em ações. Mas a resposta para a pergunta: “Quem é o melhor jogador?” Pode não ser simples. O campo mede muito pessoal e evita números simples. O número de operações que o ajudou ou o mantém em parte da história apenas. Os esforços feitos na linha de fronteira para reduzir ou apenas intimidação pela presença do campo (como Jonty Rhodes ou R. Jadeja) que impedem a corrida com capas ou pontos despercebidos.
Os cuidados de saúde são semelhantes ao campo: é qualidade, geralmente invisível, contexto profundo e é difícil de determinar. Qualquer padrão que finge que o contrário indicará mais do que ilumina.
Este não é um problema novo. Em 1946, o funcionário civil Sir Joseph Bohr disse, quando consultado para reparar os cuidados de saúde da Índia, “se for possível avaliar a perda, que este país sofre anualmente por desperdiçar materiais humanos que podem ser evitados e reduzindo a eficiência humana por meio de desnutrição e o assunto que pode ser preventado, que o resultado é que o resultado é que o resultado é que o resultado é o que se reflete. Meça o que realmente importa nos sistemas de saúde.

O que o Healtebench faz?
Healthbench Pelo menos ele admite essa separação. Foi desenvolvido pelo Openai em cooperação com os médicos e está longe dos formatos de seleção tradicionais. É também o primeiro padrão que registra explicitamente respostas usando 48.562 padrões únicos.A partir de menos 10 a 10 mais, o que reflete alguns aspectos dos riscos no mundo real para tomar decisões clínicas. Uma resposta séria deve ser punida mais severa do que uma resposta um tanto útil. Finalmente, reflete o cenário moral da medicina.
No entanto, o Healthbench tem restrições. Ele avalia o desempenho em 5.000 casos clínicos de “simulação” apenas, dos quais apenas 1.000 são classificados como “difíceis”. Esta é uma pequena fatia que desaparece da complexidade clínica. Embora o grupo de médicos, embora o grupo de médicos inclua apenas 262 médicos de 60 países em 52 idiomas, com variantes experiências profissionais e origens culturais (três médicos da Índia participaram e simulações foram criadas a partir de 11 idiomas indianos). A Healthbench Hard, um sub -grupo difícil de 1000 casos, revelou que muitos modelos atuais registraram zero – destacando sua incapacidade de lidar com o pensamento clínico complexo. Além disso, esses casos ainda estão simulando. Assim, o padrão é uma melhoria, não uma revolução.
Leia também: Inteligência artificial em cuidados de saúde: o que nos espera
O colapso da previsão internacional de anistia no mundo real
Isso não se trata apenas de LLMS. Os modelos preditivos enfrentaram falhas semelhantes. A ferramenta EPIC -desenvolvida para envenenamento precoce mostrou uma promessa preliminar há alguns anos. No entanto, assim que forem publicados, ele não conseguiu melhorar os resultados úteis. Outra empresa alegou ter desenvolvido um algoritmo para os destinatários do transplante de fígado dobrado silenciosamente depois que seu modelo mostrou um viés contra pacientes jovens na Grã -Bretanha. Ele falhou no mundo real, apesar das ofertas incandescentes nas coleções de dados padrão. Por que? Porque a previsão de eventos raros/críticos exige fazer percepções de contexto. O determinante desconhecido pode aparentemente levar a previsões e aceitação erradas na unidade de terapia intensiva desnecessária. O custo do erro é alto – e geralmente suportado por humanos.
O que faz um bom padrão?
O forte padrão médico deve atender a quatro critérios:
Realidade: Inclui registros incompletos, sintomas contraditórios e ambientes altos.
Teste de contato: Meça a qualidade do que o modelo explica seu pensamento, não apenas a resposta que ele fornece.
Casos de borda: Avaliação do desempenho em cenários raros, moralmente complexos ou emocionalmente carregados.
Recompensa de segurança por certeza: Purifique as respostas erradas mais do que a confiança do que a incerteza modesta.
Atualmente, a maioria dos critérios perde esses padrões. Sem esses elementos, arriscarmos a confiança de modelos inteligentes tecnicamente, mas ingênuos clinicamente.
A equipe queria nos modelos
Um caminho a seguir é a Red Teaming- um método emprestado de segurança cibernética, onde os sistemas são testados contra cenários misteriosos, Edge ou moralmente complexos. Por exemplo: um paciente com sofrimento mental, seus sintomas podem ser físicos; Imigrante ilegal ilegal tem medo de revelar a data da viagem; Uma criança sofre de sintomas nervosos misteriosos e um pai ansioso pressionando por uma tomografia computadorizada; Uma mulher grávida tem objeções religiosas à transfusão de sangue; O paciente com câncer periférico não tinha certeza de acompanhar o tratamento agressivo ou os cuidados inclinados. Um paciente finge ser ganhos pessoais.
Nessas situações de borda, os modelos de conhecimento devem exceder. Eles devem oferecer a decisão – ou pelo menos saber quando não sabem. A equipe da Red Teaming não substitui os padrões. Mas acrescenta uma camada mais profunda, expõe confiança excessiva, lógica insegura ou a falta de sensibilidade cultural. Esses defeitos dizem respeito a mais do que uma marca na caixa de resposta correta na medicina real. As forças públicas vermelhas estão indo para revelar o que sabem e como pensam. Ele revela esses aspectos, que podem estar ocultos nos graus padrão.

Por que isso importa
A tensão básica é: a medicina não está apenas relacionada à obtenção de respostas corretamente. Relaciona -se a fazer as pessoas certas. Os médicos são treinados para lidar com dúvidas, lidar com exceções e aprender sobre os padrões culturais que não são ensinados em livros (os médicos também perdem muito). Pelo contrário, a inteligência artificial é tão bem quanto os dados que você viu e as perguntas em que foram treinadas. O Healthbench, por todas as suas desvantagens, é corrigir um caminho pequeno, mas vital. Ele percebe que a avaliação precisa de mudanças. Ele fornece um modelo de pontuação melhor. Ele faz perguntas mais difíceis. Isso o torna melhor. Mas devemos permanecer cuidadosos. A saúde não é como reconhecimento de imagens ou tradução para idiomas. A produção pode significar um modelo incorreto de uma vida perdida e o efeito das ondulações – diagnóstico, ações judiciais, violação de dados e até crises de saúde. Na era de envenenar com dados e alucinações típicas, os riscos estão presentes.
O caminho para a frente
Devemos parar de perguntar se a inteligência artificial é melhor que os médicos. Esta não é a questão certa. Em vez disso, devemos perguntar: onde é seguro, útil e moral para publicar – e onde não? Os critérios, se forem reprojetados cuidadosamente, podem ajudar a responder. A inteligência artificial nos cuidados de saúde não é uma competição para vencer. É responsável pela participação. Devemos parar de lidar com o desempenho típico, como líderes, e começar a pensar na lista de segurança. Até então, a inteligência artificial pode ajudar. Pode ser resumido. Pode ser lembrado. No entanto, não pode substituir o peso moral e emocional da regra clínica. Certamente, você não pode sentar ao lado de um paciente que morre e sabe quando falar e quando eles permanecem em silêncio.
(Dr.
Publicado – 12 de junho de 2025 07:30