孙学军
利用从临床记录中提取的人工智能数据预测癌症预后 精选
2025-3-3 08:37
阅读:4678

利用从临床记录中提取的人工智能数据预测癌症预后

电子健康记录和肿瘤基因组分析为构建癌症预后模型提供了很有前景的真实世界数据。通过使用人工智能对2万多名癌症患者的临床报告进行注释所构建的模型,能够预测患者的生存情况,同时识别与转移及免疫治疗反应相关的基因组特征。

概览

-研究设计:比较使用各类临床和基因组数据训练的模型在预测癌症预后方面的表现。

-研究对象:24950名实体瘤患者。

-研究终点:预测总生存期和转移时间的准确性。

-分析:人工智能模型能够准确注释健康记录数据并改善预后预测。

-结论:自动化数据整合可行、准确且具有临床实用性。

 

尚未满足的医疗需求

预测癌症预后极具挑战性。例如,在显微镜下,不同个体的非小细胞肺癌可能看起来并无差异,但有些患者对特定疗法反应显著,肿瘤缩小,而另一些患者病情则迅速进展,癌细胞转移至大脑或肝脏。肿瘤基因组分析和数字化健康记录为研究导致不同预后的相关因素提供了很有前景的策略。然而,基因组数据和健康记录数据往往相互孤立,或存储在自由文本记录中,因此需要手动整理以提取关键特征,如疾病部位、吸烟状况和既往治疗情况。尽管人们努力对这些数据进行注释和协调,以研究影响患者预后的决定因素,但手动整理方法既耗时又难以大规模应用。

 

研究及其发现

自然语言处理(NLP)是人工智能的一个分支,通过训练计算机“理解”和生成语言。利用自然语言处理领域的最新进展,我们测试了被称为Transformer的机器学习架构1,2(大型语言模型的基础)是否能提升整理数据的效率。我们利用美国癌症研究协会(AACR)肿瘤基因组学证据信息交换(GENIE)生物制药合作项目(BPC)中规模适中的手动整理数据集3,训练自然语言处理算法,从临床、放射学和病理学相关的自由文本记录中提取关键特征(图1a)。我们将由此得到的自然语言处理注释,与纪念斯隆 - 凯特琳癌症中心24950名患者的肿瘤基因组数据及其他信息(包括治疗、人口统计学和预后数据)相结合,创建了一个名为MSK - CHORD的数据集。MSK - CHORD的规模比BPC大几倍,但在大多数特征的注释准确性上与之相当,且构建该数据集所需的时间和成本只是BPC的一小部分。我们测试了MSK - CHORD在训练模型以预测生存、转移和免疫治疗反应等预后,以及识别肺癌、乳腺癌、结直肠癌、前列腺癌或胰腺癌患者转移的基因组标记方面的效用。

 图片34.png

1 | 创建和使用MSK - CHORD数据集。a,MSK - CHORD包含使用一种名为自然语言处理(NLP)的人工智能,从24950名个体的电子健康记录中提取的数据。例如,一份表明肿瘤生长的放射学自由文本报告的节选,会通过自然语言处理算法,以注释报告中提及的癌症进展概率(p)。使用一个较小的手动整理数据集(BPC)对自然语言处理提取的数据特征的准确性进行验证。将自然语言处理注释与基因组数据及其他数据合并,以大规模模拟患者预后。b,用MSK - CHORD训练的预后预测模型可提供大量预后信息。例如,它们可以识别出预后比I - III期(局限性)非小细胞肺癌(NSCLC)患者更好(风险评分更低)的IV期(转移性)非小细胞肺癌患者。如按风险评分分层的 Kaplan - Meier 曲线所示,该模型能有效预测IV期非小细胞肺癌患者的一系列总生存期。底部数字表示生存曲线中每个时间点各四分位数的风险个体数量。RSF,随机生存森林——一种用于预测总生存期的机器学习算法。图片来源:Jee, J.等人/《自然》(CC BY 4.0)

在预测生存情况方面,包含MSK - CHORD所有特征的机器学习模型,其表现优于仅使用疾病分期或其他单一特征的模型(图1b)。MSK - CHORD的大规模意味着我们发现了一些在较小数据集中不明显的临床与肿瘤基因组特征之间的关系,包括此前未报道的转移和治疗反应的基因组预测因子。例如,我们发现SETD2基因的失活突变与肺腺癌的脑转移率和免疫治疗反应相关,并在两个独立队列中证实了这些发现。MSK - CHORD使我们能够构建模型,根据患者发生各种预后的风险对其进行分层。

未来展望

- 包含24950名个体的MSK - CHORD队列作为公共资源可供使用。由于其组成部分是自动生成的,机构实例每天都会更新,截至目前,该队列至少包含90000名个体和130000多个肿瘤,为不同人群的研究提供了助力4,5。

- 未来版本的MSK - CHORD将纳入更多临床参数,包括社会经济状况和共病情况,以及基于影像的放射学和微观特征。

- 从该数据中得出的发现,包括风险模型和反应的基因组预测因子,可为干预性试验提供参考,以指导治疗决策。——贾斯汀·吉和尼古劳斯·舒尔茨就职于美国纽约纪念斯隆 - 凯特琳癌症中心。

专家观点

本文展示了一项关于整合临床基因组数据以改善癌症预后预测的研究,使用了一个名为MSK - CHORD的大型数据集。该数据集通过将自然语言处理(NLP)与来自25040个肿瘤的各种数据源相结合而创建。研究表明,在预测总生存期方面,用MSK - CHORD训练的机器学习模型优于仅基于基因组数据或癌症分期的模型。本文突出了自动化数据注释的潜力以及多种数据特征在增强患者预后预测方面的价值。——森蒂尔库马尔·穆西亚,就职于美国马萨诸塞州波士顿的达纳 - 法伯癌症研究所。

编辑视角

这项研究展示了自然语言处理自动化注释的潜力,通过整合通常在基因组学、病理学和电子健康记录中相互孤立的数据流,来改善癌症预测。——维多利亚·阿兰达,《自然》副主编 

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1472711.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论1 条评论
确定删除指定的回复吗?
确定删除本博文吗?