|
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7856810/
本文的目的是建立多靶标甲基化诊断模型,评价血液样本ctDNA的甲基化标记物在结直肠癌早期诊断中的临床价值。
名词解释:
甲基化靶向捕获测序:针对感兴趣的基因组区域设计定制探针,将探针与基因组DNA序列进行杂交,捕获并富集目标基因组DNA,然后进行重亚硫酸盐转化处理和高通量测序。
甲基化区块:由位置相近甲基化变异相关性高的CpG位点构成的DNA区段,用作肿瘤标记物。本文报道从公共数据库(TCGA和GEO)筛选出8090个甲基化区块作为结直肠癌肿瘤标记物。
支持向量机(Support Vector Machine, SVM):是一类按监督学习方式对数据进行二元分类的广义线性分类器。本文通过甲基化水平模型来区分肿瘤与非肿瘤样本。支持向量机的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。甲基化标记物很多时,每个标记物都有一个甲基化水平,要评价样本的总体甲基化水平,通常需要建模,建模的方式有逻辑回归法、随机森林法和支持向量机法等。
五折交叉验证:是利用机器学习建模时测试模型精读的方法。交叉验证的目的是为了得到可靠稳定的模型。在建立PCR 或PLS 模型时,一个很重要的因素是取多少个主成分的问题。用交叉验证校验每个主成分下的PRESS值,选择PRESS值小的主成分数。或PRESS值不再变小时的主成分数。例如5折交叉验证(5-fold cross validation),将数据集分成5份,轮流将其中4份做训练1份做验证,5次的结果的均值作为对算法精度的估计,一般还需要进行多次5折交叉验证求均值,例如:5次5折交叉验证,以求更精确一点。
一、试验设计与方法
1、试验设计
设计类型 | 前瞻性、多中心、病例-对照研究 |
样本类型 | 血浆 |
DNA类型 | ctDNA |
收集样本 | 合计742例 |
病例(CRC332例、腺瘤12例、良性病65例) | |
正常对照333例 | |
患者年龄40到75岁 | |
测试样本 | 测试样本集149例CRC肿瘤,149例健康对照 |
验证样本集67例CRC肿瘤,74例健康对照 | |
金标准 | 肠镜与病理诊断 |
肿瘤标记物 | 从TCGA和GEO数据库中选取了数千个特异的CpG位点作为靶点,其中包括SEPT9的甲基化位点。最后聚焦为8090个甲基化区块,作为测序靶标。 |
标记物检测方法 | 甲基化靶向测序 |
临床性能参数 | AUC值及其95%置信区间,特异性和敏感性 |
2、DNA提取与检测方法
样品采集 | 采集管 | cfDNA-Streck全血样本采集管 | |
采血量 | 全血8-10毫升/人 | ||
血浆制备与保存 | 离心 | 室温1600g,20分钟 | |
保存温度 | -80℃ | ||
DNA提取 | DNA类型 | 血浆cf DNA | |
试剂盒 | QIAamp cfDNA提取试剂盒 | ||
甲基化测序文库 | brELSATM法(Burning Rock Biotech,广州,中国) | ||
甲基化区段捕获 | 覆盖数千个DMR-CpG位点(包括SEPTIN9) | ||
目标文库定量 | 实时荧光定量PCR法 | ||
测序方法 | NovaSeq 6000上测序,平均深度为1000×靶点 | ||
原始测序数据处理工具 | 应用Trimmomatic、BWA-meth和samblaster等生物信息学工具进行比对和读码调用,并用作下游分析。 | ||
样本甲基化区段甲基化值矩阵 | 甲基化区段 | 将基因组上距离近、且甲基化水平高度相关的CpG位点定义为特定的甲基化区段 | |
甲基化值矩阵 | 包括所有样本的8090个区段甲基化水平 |
3、样本计算
假设甲基化早期检测模型可以将诊断结果(曲线下面积,AUC)从80%提高到90%。在95%置信水平下,估计AUC的边缘误差不超过5%,计算病例组和对照组的最小样本量(结果均为106)。参数设置为:
参数 | 设定值 |
α值 | 0.05(一尾取0.025); |
β值 | 0.2(本文作者没有交代β值是多少) |
α值对应Z值(两尾) | Z1-α/2= Z1-0.05/2=1.96 |
β值对应Z值(一尾) | Z1-β=Z1-0.2=0.842 |
P0 | 80% |
PT | 90% |
估计样本量 | 108 |
样本量计算软件http://powerandsamplesize.com/Calculators/Test-1-Proportion/1-Sample-1-Sided
4、数据统计
变量类型 | 连续变量 | 分类变量 |
统计方法 | 平均数 ± SD描述 | 用计数(百分比)描述 |
差异检验 | 采用双尾t检验或Mann-Whitney U检验进行比较 | 用卡方检验或Fisher EXACT检验进行比较 |
建模方法 | 对训练数据进行五次交叉验证,并选择支持向量机作为二分类器来区分病例和对照。 | |
阳性判断值 | 根据Youden指数最大化原则确定 | |
敏感性和特异性 | 指Youden指数最大值对应的敏感性和特异性 | |
ROC曲线比较 | 采用Hanley-McNeil方法。 | |
显著性水平 | P = 0.05(双侧)。 | |
统计分析 | 均采用R3.4.2进行。 |
二、结果分析
2.1 参试群体的特征描述
图1显示,956人参与选拔,742人合格,439人通过年龄条件筛选。439人进一步按照2:1随机分组(训练组和测试组),训练组298人(病例对照各149人),测试组141人(病例67例,对照74例)。
表1、训练数据集与测试数据集的基本特征
表1显示,训练集和测试集样本数之比=2:1,均含I-IV级肿瘤样本。肿瘤与对照之间的年龄和性别均无显著差异。
图2a是训练集结果,图2d是测试集结果。 横轴是不同的样本,纵轴是不同基因靶标。图的颜色是甲基化水平。由此构成一个数据矩阵(样本数X 8090个靶标)。根据样本多个靶标的甲基化水平进行聚类分析,可以将肿瘤样本与对照样本分开。
每个样本可求出一个预测概率,代表与该样本综合的甲基化水平(图2b和2e)。
图2b图2e: 样本的甲基化水平(预测概率值)箱线图
纵轴是样本的甲基化水平预测概率值,横轴是不同肿瘤分期。预测概率值来自支持向量机方法,变量包括8090个肿瘤标记物的甲基化水平。
图2c:训练集ROC分析图,AUC值=94.3%(敏感性89.71%,特异性96.93%)
图2f测试集ROC分析图,AUC=93.4%(敏感性86.57%,特异性97.8%).
表2 ctDNA甲基化早筛模型性能分析
在训练集中,特异性为89.3%(83.2–93.7%),敏感性为88.6%(82.4–93.2%)。就不同分期而言,I期患者的敏感性为79.4%(62.1–91.2%),II期患者的敏感性为88.9%(77.3–95.8%),III期患者为91.4%(76.9–98.2%),IV期患者为96.2%(80.3–99.9%)。
在测试集中,特异性为91.9%(83.1–97.0%),敏感性为83.6%(72.5–91.6%)。测试组对I-III期的敏感性为82.5%(70.2–91.3%)。与训练集的结果相似。
在不做年龄匹配的总人群中,阳性率为健康对照组7.8%(5.2–11.2%),良性结直肠疾病30.8%(19.9–43.5%),晚期腺瘤58.3%(27.5–84.7%)。与SEPT9甲基化模型的敏感性(41.2%,34.6–48.1%)相比,本模型具有更高的敏感性(87.0%,81.8–91.2%)(P < 0.001),而且特异性不相上下,即90.1%(85.4–93.7%)对90.6%(86.0–94.1%)。
结论
基于ctDNA的多靶标甲基化面板可望用于结直肠癌早期检测,能否用于筛查有待开展更大群体的前瞻性研究。根据本研究结果,作者正在着手开始泛癌早筛研究。
参考文献
Discovery and validation of methylation signatures in blood-based circulating tumor cell-free DNA in early detection of colorectal carcinoma: a case–control study,Clin Epigenetics. 2021; 13: 26.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 17:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社