majianthu的个人博客分享 http://blog.sciencenet.cn/u/majianthu

博文

Copula熵的医学应用

已有 543 次阅读 2024-6-6 09:01 |系统分类:论文交流

本文介绍Copula熵(Copula Entropy:CE)在医学领域的应用研究,包括其在癌症、乙肝、心脏病、糖尿病、高血压、白内障、心血管外科、医学影像、中医、痴呆症、帕金森病、运动能力障碍、抑郁症、多动症和新冠肺炎等临床医学领域上的应用。

癌症

很多疾病的发生与基因结构变异有关。拷贝数变异(Copy Number Variations:CNVs)指长度大于1kb的DNA片段的变异,在人类基因组中大量存在。作为重要的基因变异,CNVs包含了大量DNA序列、疾病点和功能单元,能为疾病研究提供线索。研究表明,多种癌症的形成和发展与不同的CNVs有关。因此,发现不同基因的CNVs与不同癌症之间的关系有助于研究癌症病因和诊断方法。从大量的CNVs的基因特征中选择出与癌症相关的特征是生物信息学的一个重要问题。Wu和Li[1,2]提出了一种基因选择方法,称为相关冗余和交互分析(Correlation Redundancy and Interaction Analysis:CRIA)方法,根据CNVs选择与癌症有关的基因,以用于癌症分类。CRIA方法利用了CE的多变量相关性特性,设计了基因特征交互强度度量,用于筛选与癌症类型相关性强的基因。他们将该方法应用于cBioPortal的癌症基因组数据,利用了其中的6种癌症数据,选择出了200个与癌症有关的基因。为了验证算法的有效性,他们基于亚利桑那州立大学的数据将方法与其他8种基因选择算法进行了对比,结果显示CRIA方法选择的基因能够更准确地预测癌症类型。

癌症预后是指基于癌症病情的临床表现和诊断结果,对病情的未来发展进行评估,以帮助进一步的临床决策。临床评估考虑的预后因子在评估中至关重要,但又常常数量众多,需要进行分析选择。比如,肺癌的预后因子就多达百种。预后模型是在预后因子的基础上建立的病人风险预测模型,是癌症治疗中重要的临床工具。马健[3]提出了一种基于CE的生存分析变量选择方法,并将其应用于预后因子的选择问题,以建立预测病人生存时间的预后模型。他基于两个公开的肺癌数据验证了该方法,发现其能选择符合临床标准的预后因子,并获得较同类方法更好的预测模型,在保证模型可解释性的同时具有更好的预测性能。

乳腺癌是女性最常见的恶性肿瘤之一,在我国的发病率和死亡率都有逐年上升的趋势,严重威胁着女性的身体健康和家庭幸福。利用统计方法分析临床数据并构建诊断模型来辅助临床诊断决策,可以提高医生工作效率并降低误诊率,从而促进患者健康改善。付金露[4]提出采用特征选择的方法构建乳腺癌患者预后模型,采用了Lasso、CE和RFREF三种特征选择方法,分析了SEER数据库中2010-2014年的乳腺癌患者临床诊断数据,利用三种方法选择的特征分别构建了逻辑回归、随机森林、XGBoost和Stacking四种模型,用以预测患者5年生存状态。结果表明,利用CE选择的特征构建的逻辑回归模型给出了最高的预测准确率(96.84%)。

乙肝

生物信息学(Bioinformatics)是通过算法分析基因数据(包括基因表达谱数据)来研究生命和疾病机理的新兴学科。基因表达谱是利用DNA微阵列技术在基因分子层面观察某一生命组织动态得到的数据,从而能够在基因组水平上反映生命系统的各种现象和机理。Wieczorek和Roth[5]提出了一种研究时间序列数据之间相互作用的分析方法,称为因果压缩(Causal Compression)。与传统的分析全时间序列之间的因果关系不同,该方法研究了基于定向信息(Directed Information)分解的时间序列间相互因果作用的稀疏表达,并据此给出了时序因果分割和因果二分图发现两类问题的解法。基于CE与互信息(Mutual Information:MI)之间的等价性,作者证明了该方法只与数据分布的Copula密度函数有关,并据此设计了求解方法。作者将该方法应用于NCBI数据库中的人类C型肝炎病毒感染数据(NCBI/GEO查询号:GSE7123),研究了接受了聚乙二醇干扰素和利巴韦林治疗的重组丙型肝炎病毒核心蛋白基因型1感染的基因表达谱时序数据,关注了在干扰素信号传导中具有重要交互角色的两个基因:转录子STAT1和干扰素诱导抗病毒基因IFIT3,分别生成了二者在有效救治和无效救治病人内相互作用的不同。研究发现,根据分析结果,干扰素疗法消除了大多数有效救治病人体内两种基因之间的关联,而无效救治病人体内的关联则不受影响。同时,分析表明两种病人救治前后二者之间均存在因果交互作用,但对于有效救治病人,早期的IFIT3对后期的STAT1的影响更显著,这与已有研究结论相符合。

心脏病

心脏病是最常见的临床疾病之一。医生已经积累了丰富的心脏病临床诊断经验,可以通过各种生理测量结果作出诊断决策。在此经验基础上开发智能临床诊断模型是业界长期追求的目标,开发此类模型的关键在于选择一组生理测量变量来构建预测诊断模型。基于著名的UCI心脏病数据集,马健[6]提出采用CE作为变量选择方法,用以选择一组生理变量构建诊断模型。该数据集包含了来自世界四地真实的临床心脏病生理测量和诊断数据,其中13个生理测量变量被医学专家认定为是临床相关的。实验结果表明,CE方法选择出了13个临床医生认定变量中的11个变量,是对比方法中最多的,从而得到了最好的预测准确率。同时,CE方法还发现了认定变量以外其他与诊断相关的变量,为临床进一步检验提供了新的参考。

糖尿病

糖尿病是另一种常见临床疾病。对糖尿病人的病情管理与临床诊治结果(发病率和致死率)密切相关,因此建立严格的糖尿病患者住院管理流程对其安全十分重要,这就需要对病情管理标准进行分析研究。为了评估住院患者的救治效果,美国业界建立了健康事实(Health Facts)数据集,包含了130所美国医院和救治网络的糖尿病患者的数据。基于该数据集1999至2008年的10年间101,721名住院患者的数据,Mesiar和Sheikhi[7]利用CE变量选择方法建立预测模型,用于从其他49个变量预测“是否已用药”变量,取得了良好的预测效果,在仅选择使用20个变量的情况下就获得了97.2%的准确率,增进了对用药相关变量的认识,构建了合理用药评价模型。

高血压

高血压是全球首要致死病因,对人群健康构成严重威胁。全基因组关联研究表明多个基因与高血压密切相关。已有多个研究报道I型细胞膜钙离子转运酶基因(ATP2B1)与收缩压和舒张压相关联。该基因有21个CpG位点。研究该基因及其CpG位点与高血压的关系是一个新的重要问题。Purkayastha和Song[8]提出了一种新的非对称可预测性概念,称为非对称MI(AMI),并利用CE理论给出了其估计方法。他们将该方法应用于ELEMENT数据集,分析525个年龄在10-18岁之间的儿童的数据,发现ATP2B1与舒张压相关联,证实了已有的发现;同时发现该基因的CpG位点CG17564205与舒张压相关联,且根据AMI判断,舒张压对该位点具有预测性,这一新发现表明血压可以改变位点。

白内障

白内障是眼科的常见疾病,是导致患者失明的最主要病因。白内障超声乳化手术(Phacoemulsification)是世界各国治疗白内障的首选手术治疗方式。尽管该手术已十分成熟,但临床仍然可能会导致术后角膜水肿等并发症,从而影响视力恢复并造成患者不适。构建基于风险因素的角膜水肿风险预测模型在临床十分必要。Luo等[9]提出利用CE方法构建术后角膜水肿风险预测模型,将方法应用于临床178名患者的数据,从数据的17个变量中筛选预测变量,最终将临床预测模型使用的四种变量(糖尿病、最佳矫正视力、晶状体厚度和累积耗散能量)减少为两种(最佳矫正视力和累积耗散能量),且不影响预测精度。结果分析表明,利用CE得到的预测模型具有临床应用价值,可以在保证预测性能的情况下减少预测需要收集的临床信息。

心血管外科

主动脉瓣反流(Aortic Regurgitation)是一种常见的心脏瓣膜疾病,主要症状是在心脏舒张期,血液从主动脉回流到左心室。主动脉瓣膜置换手术是主动脉瓣反流的传统治疗方式之一。左心室射血分数(Left Ventricle Ejection Fraction:LVEF)是一项衡量心脏功能的重要指标,研究其在手术前后的改善关系可以为瓣膜置换手术时机选择和效果预测提供参考证据。Sunoj和Nair[10]利用survival copula扩展了CE概念,提出了一种称为Survival Copula Entropy(SCE)的新概念,用于衡量生存函数相关变量之间的依赖关系。他们将SCE应用于主动脉瓣置换手术临床数据,发现了手术前后LVEF之间的正相关关系。

医学影像

脑肿瘤是一种高致死率肿瘤,约占全身肿瘤的5%,近年来在我国发病率呈上升趋势。脑肿瘤病变具有形态多样、位置不定的特点,诊断难度大,基于无侵式医学影像的分类识别是主要的临床诊断方式。利用深度学习方法,从肿瘤医学影像提取定量特征并构建诊断模型,可以辅助医师的临床诊断,因此得到了大量的研究。如何提取和选择图像的定量特征是构建辅助诊断模型的关键问题。潘红宇[11]提出了一种此类特征选择方法,首先利用CE等相关性度量初始化特征集合,再利用灰狼优化算法以分类性能为目标优化特征集合。他利用来自重庆医科大学附属第一医院、西南医院和四川省肿瘤医院的102例具有ATRX突变的低级别脑胶质瘤患者影像数据,提取了五类共5530个影像组学特征,结果表明,相较对比方法,提出的方法在选择使用了最少(13个)的特征的情况下得到了最优的分类性能,且所选特征与ATRX突变特征状态相关,具有作为生物标志物的潜力。

中医

脉搏波是传统中医的主要问诊方式,因其携带了复杂多样的病理信息,在一定程度上反映了心血管系统的生理状态。传统中医的诊脉主要依靠名医的个人经验,研究脉搏波数据的分析算法,对糖尿病和高血压等常见疾病的无创诊断具有重要意义,有助于传统中医的科学化发展。汤宇飞[12]提出了一种基于图卷积神经网络的多模态脉搏波诊断算法,通过将脉搏波转换为包含互补的病理信息的三通道图像,再利用ResNet提取图像特征,最后利用CE等相关度量得到反映脉搏波信号间时间相关性的邻接矩阵构建图卷积神经网络,从而进行疾病分类诊断。他在实际腕部和指尖的脉搏波数据的基础上,对高血压和糖尿病患者的健康状态进行分类,结果表明算法可以得到99%以上的预测准确率。

痴呆症

阿尔兹海默病(Alzheimer's disease,也称痴呆症)是老年人面对的主要神经退行性疾病之一,临床表现为认知能力的过度衰退等。早期筛查和诊断可以帮助痴呆症患者和家庭及早干预并管理病情发展,可以有效提高病人生活质量,降低家庭和社会成本和负担。简易精神状态量表(Mini-Mental State Examination: MMSE)是临床广泛采用的认知能力筛查工具之一。马健[13]通过利用CE分析了手指扣击运动(finger tapping)的特征和MMSE之间的关联强度,发现一组与MMSE相关联的特征,包括扣击频率(或扣击次数或扣击平均时间间隔)等。在此关联关系的基础上,他们构建了从手指扣击特征到MMSE的预测模型,取得了良好的预测效果。此预测模型有望用于痴呆症等疾病的认知能力筛查工作中。

帕金森病

帕金森病(Parkinson's disease:PD)是另一种常见的神经退行性疾病,临床表现为动作迟缓和运动功能障碍等症状。重复经颅磁刺激(repititive transcranial magnetic stimulation: rTMS)是利用脉冲磁场作用于中枢神经系统,以改善生理功能的临床治疗技术,广泛应用于神经、精神类疾病的治疗,并在近年应用于PD康复治疗的研究中,以期缓解患者症状并改善运动功能。李润泽等[14]研究了rTMS对PD患者运动症状辅助治疗的神经调控机制,利用基于CE的GCMI等方法分析了rTMS治疗前后的EEG数据,构建了脑功能网络连接矩阵并得到3种网络特征参数。实验结果表明rTMS主要改变PD患者的beta和gamma振荡,其中运动皮层的相应变化可能与运动功能改善有关。

运动能力障碍

跌倒是老年人面对的重大健康风险之一,需要科学管理和及早干预。跌倒预测是管理跌倒风险的重要手段之一。起立行走试验(Timed Up and Go: TUG)是一种主要的跌倒风险评估工具。马健[15]提出了一种结合视频分析和机器学习技术的跌倒风险预测方法。该方法首先从老年人进行TUG测试的视频中分析出人体3D姿态信息,再由一段时间的姿态信息序列计算出一组步态特征,通过利用CE分析步态特征和跌倒风险指数之间的关联关系,选择出一组与风险关联的步态特征(包括步幅、步态速度和步态速度的方差等),最后用此特征作为输入构建跌倒风险的预测模型。该方法在真实数据上的实验显示了良好的预测效果。此分析结果也表明了步态特征反映的行动能力与跌倒风险之间的内在联系,使得模型具有临床意义的可解释性。

抑郁症

抑郁症是一种常见的情绪相关的心理精神障碍,全世界约有3.5亿名患者为此病所困扰,对其进行研究对人类健康具有重要意义。脑电图(EEG)是一种非侵入式的大脑活动电信号测量手段,广泛应用于大脑疾病的研究中。脑功能网络是在EEG信号基础上构建的反映大脑活动的功能性指标,可采用MI、相干性等多种方法构建此类网络。张婷婷等[16,17]提出基于相干性虚部(Imaginary part of Coherency)构建的脑网络连通性指标来研究抑郁症患者识别问题。他们利用CE、Relief过滤等特征选择方法对脑电网络连通特征进行选取,发现利用CE和Relief过滤联合得到的相干性在线反馈指标特征集合能够有效区分抑郁症患者和健康人群。

多动症

建立神经信号之间的因果关系对理解脑连接至关重要,因果关系连接反映了在脑认知过程中脑网络内部不同区域之间的信息传输方向,刻画了大脑认知过程的脑区之间动态关系特征。相比于传统的格兰杰因果检验,无模型假设的传递熵(Transfer Entropy:TE)更适合此类因果分析任务。Redondo等[18]基于CE理论提出了一种新的TE概念,称为STE(Spectral Transfer Entropy),用于计算频域滤波后的时域信号之间的TE。与直接在原始信号上计算TE相比,在特定频域上计算的STE更具有神经学意义的可解释性。他们将方法应用于注意缺陷多动障碍(ADHD)患者EEG信号的分析,利用STE构建因果关系脑连接网络,发现了ADHD患者与健康人之间与注意力相关的脑连接网络连接的不同。实验结果表明,健康人在与注意力和受控记忆存取相关的θ 和 α频段表现出明显的因果联系,而多动症患者的脑网络连接则主要在 δ 振荡上,可解释为与注意力缺陷有关。

新冠肺炎

流行病是公共卫生学的重要话题,流行病患者的及时诊断对控制流行病的传播至关重要。感染了流行病毒的病人往往伴有发热等症状,很难与正常的发热病人进行区分。目前正在流行的新型冠状病毒患者就具有这样的发热症状,基于临床数据开发能够区分病毒感染者和正常流感病人的技术成为一个紧迫的问题。然而,相关的症状有10几种,如何选择合适的变量集合成为研究成功的关键。Mesiar和Sheikhi[7]基于CE变量选择方法,利用真实的临床数据,分析了新冠患者诊断相关的19种症状变量,发现年龄、疲劳和恶心呕吐是最重要的诊断变量,可以使诊断达到85%的诊断准确率,如果将诊断变量增加到15个,准确率可以提高到91.4%。

更多Copula熵的多学科实际应用,请见我们在ChinaXiv的综述论文

参考文献

  1. Qiang Wu and Dongxi Li. CRIA: An interactive gene selection algorithm for cancers prediction based on copy number variations. Frontiers in Plant Science, 13:839044, 2022.

  2. 吴强. 基于 Copula 熵的交互式基因选择算法及其在癌症预测中的应用. 硕士学位论文, 太原理工大学, 2022.

  3. Jian Ma. Copula entropy based variable selection for survival analysis. arXiv preprint arXiv:2209.01561, 2022.

  4. 付金露. 基于特征选择的乳腺癌患者预后模型研究. 硕士学位论文, 江西财经大学, 2023.

  5. Aleksander Wieczorek and Volker Roth. Causal compression. arXiv preprint arXiv:1611.00261, 2016.

  6. Jian Ma. Variable selection with copula entropy. Chinese Journal of Applied Probability and Statistics, 37(4):405–420, 2021.

  7. Radko Mesiar and Ayyub Sheikhi. Nonlinear random forest classification, a copula-based approach. Applied Sciences, 11(15):15, 2021.

  8. Soumik Purkayastha and Peter X.K. Song. Asymmetric predictability in causal discovery: an information theoretic approach. arXiv preprint arXiv:2210.14455, 2022.

  9. Yu Luo, Guangcan Xu, Hongyu Li, Tianju Ma, Zi Ye, and Zhaohui Li. Research on establishing corneal edema after phacoemulsification prediction model based on variable selection with copula entropy. Journal of Clinical Medicine, 12(4):1290, 2023.

  10. S.M. Sunoj and N. Unnikrishnan Nair. Survival copula entropy and dependence in bivariate distributions. REVSTAT-Statistical Journal, 2023.

  11. 潘红宇. 基于影像组学与深度学习的脑肿瘤图像分类研究. 硕士学位论文, 西南大学, 2023.

  12. 汤宇飞. 基于脉搏波的糖尿病和高血压诊断算法研究. 硕士学位论文, 中国矿业大学, 2023.

  13. Jian Ma. Predicting MMSE score from finger-tapping measurement. In Proceedings of 2021 Chinese Intelligent Automation Conference, pages 294–304, 2022. See also bioRxiv 817338 (2019).

  14. 李润泽, 姚尧, 冯珂珂, 杨硕, 李佳丽, 程轶峰, 尹绍雅, and 徐桂芝. 重复经颅磁刺激改善帕金森病运动症状的脑功能网络分析. 生物化学与生物物理进展, 50(1):126–134, 2023.

  15. Jian Ma. Predicting TUG score from gait characteristics based on video analysis and machine learning. In Proceedings of 2023 Chinese Intelligent Automation Conference, pages 1–12, 2023. See also bioXiv 963686 (2020).

  16. 张婷婷, 王楠, 周天彤, 王苏弘, and 邹凌. 基于 Couple 熵的抑郁症相干性反馈指标提取. 电子测量技术, 45(9):160–167, 2022.

  17. 张婷婷. 基于脑电的抑郁症识别及虚拟现实康复训练研究. 硕士学位论文, 常州大学, 2022.

  18. Paolo Victor Redondo, Raphaël Huser, and Hernando Ombao. Measuring information transfer between nodes in a brain network through spectral transfer entropy. arXiv preprint arXiv:2303.06384, 2023.



https://wap.sciencenet.cn/blog-3018268-1437072.html

上一篇:学术搜索引擎有哪些?
收藏 IP: 221.218.140.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 09:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部