孙学军
AI可以改变医疗,但数据必需可靠 精选
2025-6-24 20:01
阅读:1110

图片1.png

乳腺癌筛查的临床试验正在进行,这些试验使用了人工智能辅助的成像设备。图片来源:Klaudia Radecka/NurPhoto/Getty  

现代医学的实践建立在模式识别的基础上——无论是在患者的病史、体格检查、实验室结果还是对治疗的反应中。一位技术娴熟的医生能够及早识别关键模式,并将它们与其他看似相似的模式区分开来。  

但有些模式过于复杂、过于微妙或过于短暂,难以引起警惕。例如,没有医生能从常规血液检测中可靠地发现早期胰腺癌。因此,许多需要预测未来情况的重要问题(如肿瘤是否会扩散或一个人可能存活多久)的答案具有主观性——往往取决于医生的累积经验或“直觉”。  

减少医学主观性的一种方法是通过监督机器学习——这是一种基于创建计算机模型的技术,该模型可以通过从标记数据中学习来检测模式。例如,通过检查许多包含或不包含肿瘤的乳房X光图像,模型可以学习如何识别倾向于与某一标签相关联的统计特征,即使这些特征对人类眼睛来说并不明显。  

毫不奇怪,人们对预测建模的兴趣激增。在涉及肿瘤扩散、器官衰竭或治疗窗口狭窄的情况下,准确了解某人的病情可能如何发展可以节省资源、减少痛苦并挽救生命。仅在2024年,引文数据库PubMed就收录了超过26,000项在患者医疗保健和临床医学中提及人工智能(AI)、机器学习或深度学习的研究。全球医疗保健领域的人工智能市场预计到今年年底将超过460亿美元,到2030年将达到2000亿美元。  

然而,任何模型,无论多么复杂,仍然是不确定性的来源。如果它低估了风险,就会导致临床医生忽视严重的问题。而如果它高估了风险,则可能导致不必要的检查和干预,以及资源的浪费。  

模型的有用性通常通过其对以前未见过的数据的泛化能力来判断,这被视为真实世界性能的替代指标。但有一个问题:在学习预测结果的过程中,模型也会吸收训练数据中固有的临床决策、关系和偏差。监督学习依赖于这样一个假设,即这些条件(包括偏差)在模型使用期间将保持稳定。没有这个基础,一切都会崩溃。  

例如,“这位患者明天有死亡风险吗?”在农村门诊诊所和心脏重症监护室是不同的问题,在一个环境中训练的模型在另一个环境中可能表现不佳。  

当前的最佳实践强调数据源的透明度,并鼓励在模型使用的环境中对其进行测试。尽管如此,鉴于许多医疗数据集规模小、有偏差或与特定人群相关,模型表现不佳或完全失效的可能性仍然高得令人不安。  

然而,医疗保健中预测建模广泛采用的最大威胁可能不是模型彻底失败的情况,而是它成功交付结果的情况。  

数据污染

机器学习在医疗保健环境中的任何应用,通常都建立在患者电子健康记录(EHR)的基础上。尽管电子健康记录的采用在全球范围内有所不同,但它在许多高收入国家已深深嵌入,既作为预测模型训练数据的来源,也作为将这些预测返回给临床医生的系统。从核心上讲,电子健康记录是一个动态数据库,持续记录患者护理的几乎所有方面——包括实验室结果、用药情况、临床笔记以及感染或死亡等关键事件。  

通过扩展可用的患者数据量,电子健康记录实现了标准化工作流程:从电子健康记录中提取数据来训练模型,一旦模型部署,它们就会分析新的患者数据以预测潜在的健康风险。这些预测可以指导临床决策——例如,如果模型标记出高肺炎风险,即使在典型症状完全出现之前,也会促使医生下令进行胸部X光检查或开始使用抗生素。  

但电子健康记录也是模型预测的目的地——以及这些预测的后果。以一个旨在检测败血症发作早期迹象的模型为例。理想情况下,医生会收到警报并及时采取行动,使用抗生素或输液来防止病情恶化。这正是我们希望人工智能在医疗保健中产生的影响。败血症 notoriously 难以早期发现,死亡率为30-40%,因此快速干预可以挽救生命。  

但问题在于:因为医生进行了干预,患者没有患上败血症。结果,模型标记的模式(最初与败血症相关)现在在电子健康记录中被记录为与非败血症结果相关。这在数据中创建了一种“污染关联”,即败血症的警告信号似乎导致了良好的结果,仅仅是因为干预成功。随着这些关联的积累,它们开始削弱现有甚至未来模型的可靠性。  

随着时间的推移,即使表现良好的人工智能模型也会退化。患者人口结构的变化、不断发展的护理标准、新药物或临床实践的变化,都可能导致模型的预测变得不那么准确——这种现象被称为模型漂移。  

 图片2.png

法国一家医院的医生正在研究一张X光片,其中一个人工智能模型标记了可能的骨折。图片来源:Damien Meyer/AFP/Getty  

高阶效应

当前医疗保健预测建模的方法没有考虑模型之间以及模型与临床决策之间的相互作用。这引发了关于该领域一些核心实践的严重问题,首先是研究人员在模型部署后如何监控其性能。  

如果一个模型有助于预防不良事件,其预测的事件就不会发生——例如,患者不会死于败血症——其真实世界的性能可能看起来有所下降。也就是说,性能下降也可能意味着模型在实际应用中工作不佳,做出了错误的预测。通常很难区分这两种情况。  

提高对正在发生情况的理解的一种方法是定期比较模型活跃期间和不活跃期间的结果。这种并排比较可以帮助确定模型是否真正有效,或者是否存在不足。在这种情况下,应将预期的性能变化范围作为评估过程的一部分来建立。如果性能下降超过这个范围,可能表明模型退化。如果下降幅度小于预期,则可能表明模型使用有限或与临床实践的集成无效。提前估计这个范围可能很困难,因为模型漂移或临床可变性等因素可能会干扰。一种更可靠的方法可能是在受控条件下通过实验确定该范围。  

不幸的是,真实世界的患者护理,尤其是在有多个模型和提供者的环境中,与受控条件相去甚远。尽管随机对照试验(RCT)仍然是评估临床治疗和模型的金标准,但在日常临床环境中很少可能应用这种程度的控制。在实践中,临床医生可能需要在多个重叠甚至冲突的模型之间进行选择。随着部署模型数量的增加,孤立、严格控制的研究结果作为真实世界有效性指标的可靠性越来越低。除非一个模型将在其测试的完全相同的受控环境中使用——没有竞争模型、系统变化或漂移——否则应谨慎解释其孤立性能。  

即使我们表面上接受随机对照试验能够提供预测模型有效性的可用证据,它们也伴随着巨大的财务和时间成本。评估模型的一种更实际的方法是在全新的数据上对其进行测试——例如来自另一家医院或站点的数据。这个过程通常称为外部验证,有助于表明模型是否能够检测到真实的生物学模式,而不仅仅是其训练数据特有的模式。但与模型再训练相关的挑战类似,当以前的模型已经塑造或影响了用于测试的数据时,这种测试会变得更加困难。  

如果不知道哪些患者数据受到早期模型的影响,任何验证新模型的尝试都可能给出误导性的结果。例如,用已经使用类似模型的医院的数据测试新的死亡率预测模型,可能会表明它的表现比实际更差。这是因为原始模型可能已经预防了许多新模型试图预测的死亡,从而掩盖了它需要学习的确切关联。这是一个严重的问题,尤其是因为受隐私保护的医疗数据经常与行业合作伙伴共享,用于训练商业模型,或汇集到大型公共数据库和生物库中,而这些数据库和生物库是未来研究的支柱。  

潜在解决方案

“数据污染”潜在后果的一个有用类比来自物理科学。20世纪中叶以后生产的钢被认为不适合制造盖革计数器等对辐射敏感的仪器。这是因为大气核试验将低水平的放射性同位素释放到环境中,这些同位素在冶炼过程中会嵌入所有现代钢中。为了解决这个问题,制造商使用从核时代之前建造的船舶和结构中回收的“低本底钢”。  

类似地,随着机器学习模型开始改变临床数据,干净、未改变的数据集将变得越来越稀有和有价值,可用于训练或验证新模型。任何长期解决方案都需要从根本上重新思考如何在医疗保健环境中部署预测模型。因此,所有利益相关者都必须了解模型与其所依赖的数据相互作用时可能产生的风险。  

医生需要开始记录任何可能影响患者护理的预测。这在今天不是标准做法,但它是在临床环境中安全、负责任地使用预测模型的关键第一步。  

研究人员和模型开发人员必须适应一个越来越受先前模型使用影响的环境。解决方案需要同时解决模型如何训练和如何评估的问题。值得探索的方法包括修改数据集以删除受影响的案例,或使用因果机器学习方法,这些方法试图对产生观察结果的潜在机制进行建模,而不是依赖表面级的统计关联。基础模型可以用更少的数据适应新任务,这也可能有助于减少对污染数据集的依赖。  

由于验证研究也会受到这些问题的影响,一种有前途的方法是创建精心策划的黄金标准数据集。这些数据集可以通过标记模型预测影响临床决策的患者记录、进行回顾性审计以识别此类案例以及使用人工智能前的数据来避免污染来组装。这些数据集不仅应该反映人工智能模型目标的真实世界人群,还应该随着时间的推移与当前的护理标准保持一致。  

管理人员将需要管理多模型环境日益增加的复杂性。随着更多预测模型并行部署,挑战随之而来:一家医疗机构应该选择同时运行多少个模型?有多少个模型应该同时对单个患者有效?谁来决定哪些模型优先?管理这些相互作用将增加操作复杂性,带来财务成本,并需要大多数卫生系统所没有的基础设施。这些选择将影响单个工具的成功以及人工智能在临床护理中的采用轨迹。  

如果我们认真对待构建真正的“学习型卫生系统”,我们可能需要考虑创建 feeder 站点。这些将是故意不部署预测模型的机构,以保留干净的数据环境。理想情况下,这些站点在患者人群和临床实践方面应与目标机构足够相似,以便在其数据上训练的模型可以转移,而性能损失最小。然而,即使作为一种理论解决方案,这种方法也引发了严重的伦理问题,因为它涉及为了保持数据质量而向某些患者隐瞒潜在有益的人工智能工具。  

尽管机器学习有可能改变医学,但不受控制的部署有可能以长期可靠性换取短期利益。第一个也许也是最关键的步骤是系统地记录模型预测何时以及如何可能影响临床护理。被机器学习触及的健康信息具有潜在的“放射性”,我们知道它在哪里才是有意义的。

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1491086.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:4
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?