|
论文赏析
多参数液体活检与肺癌无创诊断和预后
题目:Non-invasive lung cancer diagnosis and prognosis based on multi-analyte liquid biopsy
期刊Mol Cancer. 2021; 20: 23.doi: 10.1186/s12943-021-01323-9
期刊影响因子11.35
1、背景
研究目的:基于血浆cfDNA高通量测序,开发突变位点和甲基化特异性肿瘤标记物,用于肺癌的诊断和预后。
2、研究方法
2.1研究流程:全基因组标记物筛选——标记物模型构建——模型性能评价
2.2检测方法:血浆cfDNA高通量测序(突变和甲基化)
2.2诊断模型:通过随机森林法,对样本的基因突变负荷、甲基化水平和CEA诊断结果建立诊断模型,用于区分肺癌是恶性还是良性。
2.3预后模型:对样本的基因突变负荷和甲基化水平建立多变量Cox比例风险模型,用于肺癌患者的预后分析。
3、结果
3.1突变诊断模型
样本 | 111 份肺癌,78 份良性结节患者的血浆样本 |
检测内容 | 基因突变 |
检测方法 | 超深靶向NGS测序(PANEL测序) |
PANEL靶标 | 139个基因及其外显子(TCGA和COSMIC数据库中突变频率高) |
突变负荷计算 | 算法1:SUMAF=所有突变位点等位基因分数之和; 算法2:wSUMAF=等位基因分数的加权总和( TCGA 和 COSMIC 的热点突变权重更大)。 |
wSUMAF模型性能 | AUC值=0.68; 敏感性59.5%;特异性71.8% |
3.2甲基化诊断模型
样本 | 111肺癌 +87 良性结节患者血浆样本 |
检测内容 | 甲基化水平 |
检测方法 | 全基因组cfDNA亚硫酸氢测序(WGBS) |
建模标记物 | 47 个DMRs |
建模方法 | 6倍交叉验证随机森林 |
AUC | 0.71 |
3.3多组学诊断模型
模型类型 | 建模参数 | 模型性能参数 |
多组学模型 (74LC+60 BLN) | wSUMAF突变评分+54DMRs的区域甲基化比+血清 CEA水平 | AUC= 0.78, 敏感性=76.9% ;特异性=58.3% |
多组学模型(74LC+60 BLN) | wSUMAF突变评分+54DMRs的区域甲基化水平 | AUC = 0.74 |
多组学模型(74LC+60 BLN) | 59DMRs + wSUMAF模型 | AUC=0.77;敏感性=76.1%;特异性= 59.2% |
多组学模型对照 | wSUMAF突变模型 | AUC=0.68 |
多组学模型对照 | 59DMRs甲基化模型 | AUC=0.74 |
3.4突变和甲基化预后模型
应变量 | 肺癌患者总生存率(OS) |
自变量(肿瘤标记物) | 突变评分wSUMAF |
12个甲基化DMR的综合甲基化水平 | |
模型构建方法 | 随机森林10次交叉验证 |
模型 | 惩罚Cox回归 |
个体甲基化预后评分(MPS) | 12个DMR甲基化水平乘以相应加权系数后求和 |
结果 | 突变负荷+MPS模型优于突变负荷模型,但差异不显著突变负荷及MPS与OS负相关 |
4、要点回顾
4.1 NGS测序技术
第二代测序(Next-generation sequencing,NGS)又称为高通量测序,是基于PCR和基因芯片发展而来的DNA测序技术。二代测序在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记(一般为荧光分子标记)来确定DNA的序列。将目标DNA剪切为小片段; 单个小片段DNA分子结合到固相表面,单分子独立扩增,每次只复制一个碱基(A,C,T,G)并检测信号,从而达到DNA测序的目的。NGS较之一代测序成本大大下降,通量大大提升,但缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统偏向性,同时读长也比较短。
靶向NGS测序指通过PCR或者芯片捕获的方式,富集感兴趣的目的区域的READS,然后进行NGS测序。
PANEL测序指针对某种特定疾病或者表型,将相关的候选基因集中起来,只针对这些基因进行NGS测序。
超深靶向NGS测序:NGS测序深度500-1000X甚至更高,有助于发现罕见变异,挖掘疾病相关基因。
重亚硫酸盐测序:该方法可以从单个碱基水平分析基因组中甲基化的胞嘧啶。首先,利用重亚硫酸盐对基因组DNA进行处理,将未发生甲基化的胞嘧啶脱氨基变成尿嘧啶。而发生了甲基化的胞嘧啶未发生脱氨基,因而,可以基于此将经重亚硫酸盐处理的和未处理的测序样本进行比较来发现甲基化的位点。
全基因组甲基化测序(Whole Genome Bisulfite Sequencing,WGBS)将Bisulfite处理与高通量测序技术相结合,绘制全基因组高分辨率DNA甲基化图谱,可用于研究物种特定DNA区域甲基化与特定表型之间的关联。
4.2诊断与预后模型
逻辑回归模型:预测在不同的自变量(如某基因的甲基化水平)情况下,发生某病或某种情况的概率有多大。常用于研究多个检测靶标与肿瘤发生的关系。逻辑回归分析可得到逻辑回归方程,向方程输入自变量(如不同标记物的甲基化水平)可以得到患某癌症的概率,并根据概率阈值,得出癌症是阳性还是阴性的判断。
随机森林:构建分类模型(如恶性与良性)的一种方法,研究自变量与应变量的关系(作用有点像线性和Logstic回归模型),而不需要考虑自变量的共线性问题,可以很好地预测多达几千个解释变量的作用;即使部分数据缺失,仍可以维持一定的准确度。随机森林可以用于分类和回归,本文与逻辑回归模型作用相同。
生存分析:根据样本生存资料估计总体生存率及其它有关指标, 估计不同时间的生存率 、生存曲线以及中位生存期等 。对不同处理组生存率进行比较,以了解哪种治疗方案较优。探索和了解影响生存时间长短的因素, 或平衡某些因素影响后, 研究某个或某些因素对生存率的影响 。生存分析包括生存表法、KAPLAN-MEIER法、Cox 回归。
多变量Cox比例风险模型:用以解释多个自变量按风险比例对生存时间的效应,得到一个概率值,本研究用于评估肿瘤标记物对患者生存时间的影响。
4.3肿瘤标记物数据库
TCGA数据库:目前共收录了33种癌症类型。涵盖了基因组,转录组,表观遗传,蛋白组等各个组学数据。官方的工具主要功能是查看和下载数据,只有非常简单的分析功能,而第三方工具则侧重于基于TCGA的数据进行分析。
COSMIC数据库:收录了来自不同研究机构和数据库的体细胞突变数据,并提供了方便的浏览,检索,下载功能。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 18:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社