YangLiBMBL的个人博客分享 http://blog.sciencenet.cn/u/YangLiBMBL

博文

生物信息学中的统计检验大起底

已有 3053 次阅读 2021-12-22 11:22 |个人分类:科研笔记|系统分类:科研笔记

  曾经以为数学各个分支在生物信息学中具有相似的地位。读博以后才知道统计检验的重要性。看《Nature》《Science》《Cell》等大杂志中,哪怕是纯实验的研究,最后都逃脱不了统计显著性。作为离散数学(组合最优化)出身的博士,不得不专门补习一下生物信息学中的常用统计检验方法。

  我们以统计检验作为分类依据,介绍每一种检验对数据的要求,检验的目标,以及在具体数据分析中的应用。

  超几何检验,适用于计算一个Query集合与一系列带注释的Target集合的重叠度。它对数据分布没有要求,需要输入四个数字——全集规模、某个Target集合的规模、Query集合的规模以及该Target集合与Query集合的交集规模。其原理是计算随机情况下,Query集合与该Target集合具有跟当前观测情况具有相同甚至更大规模的交集的概率之和,作为P值。然而,单纯观察P值是很“危险”的,因为我们把多个Target集合与同一个Query集合做了多次相互独立的假设检验。因此,检验一个假设的显著性水平应该乘以Target集合的数量。换句话,P值的阈值应该除以Target集合的数量,之后才能用于显著性的判断。这种方法叫做Bonferroni矫正。另一种常用的矫正方法要考虑所有Target集合的P值分布,叫做:错误发现率(False Discovery Rate,FDR)矫正。得到的显著性数值叫做Q值。这种矫正方法是根据P值从小到大排列,例如:p(1), p(2), ... , p(m)。找到最大的正整数值,对于阈值q满足:p(i) <= (i * q) / m。这样得到的p(1), p(2), ... , p(i)对应的Target集合就是显著的集合。超几何检验通常用于一部分功能基因组学,例如:基因本体论(Gene Ontology,GO)、KEGG、Reactome和Hallmark代谢通路,等等。这些情形只需要提供Query和Target的基因集合,并不需要对基因进行排序。注意:超几何检验不能用于基因集合富集分析(Gene Set Enrichment Analysis,GSEA)。因为GSEA要求输入基因要根据一个分数降序排列。GSEA计算的是经验性(Empirical)P值。

  对数秩检验(Log-rank test),它既不“对数”,也没有“秩”,是用来检测两个群体在一系列时间点上发生某个事件(例如:死亡)的概率是否存在显著差异的方法,经常用于生存分析(Survival Analysis)。其原假设(Null Hypothesis)是:两个群体在一系列时间点上发生某个事件的概率(生存分布)不存在显著差异。如果某个数据集的分布是明显右偏(Right Skewed)并且是审查(Censored)数据,那么对数秩检验就很适用。右偏指的是分布曲线在右侧具有明显的尾巴;审查数据指的是存在一些没有价值的数据,例如:测试个体中途离开、某个体死亡的时间不一定等于观察时间,等等。如果原假设成立,我们可以把两个生存分布看做:“上帝”在每一个时间点通过“有放回摸黑球和白球”的方法,确定个体的死亡与否。以上思路是基于是Z检验的对数秩检验。另一类是卡方检验。详情请查阅这个博客。前面已经提到了,对数秩检验在生物信息中几乎都被用在了生存分析中。

  Wald检验(Wald test),是用来检测一个回归模型中每个解释变量(自变量)的重要性的方法。如果一个解释变量不重要,那么我们就可以把它从模型中删除。具体地,原理是测试因变量和某个解释变量的关联参数是否等于零。当然,这里的原假设就是该关联参数等于零。Wald检验和对数秩检验往往在生存分析中配套使用。其流程如下:首先,通过对数秩检验判断两个生存分布是否存在显著差异。然后,分别用单变量Cox模型建立因变量和一个解释变量(例如:治疗、性别、年龄和种族)的关系,并用Wald检验衡量每个解释变量的重要性。最后,筛选出重要的解释变量,并构造多变量Cox模型,仍然用Wald检验衡量多个变量共同的重要性。

  弗里德曼检验(Fridman test),是一种无参数检验方法,用于检测三组或者三组以上数据是否存在显著差异。原假设是:多组样本之间不存在显著差异。在生物信息中,我们往往对手中的多个样本集合,运用弗里德曼检验判断这些集合之间是否存在显著差异。如果确实存在差异,我们就需要更进一步判断具体是哪两个样本集合之间存在差异,这就需要用到下面的双端Wilcoxon秩和检验。具体的应用案例:给定10个早期阿尔滋海默(Early AD)和10个中期阿尔滋海默(Mid-AD)转录组的Sample,将数据根据脑区分层(例如:七层),并用病理学对细胞进行注释。然后,计算每个分层所包含的具有病理学注释的细胞所占的比例。这时候我们会用弗里德曼检验判断脑区分层之间是否存在病理学注释的细胞比例的显著差异。

  双端Wilcoxon秩和检验(Two-tailed Wilcoxon rank sum test,Mann-Whitney U test),是一种无参数检验方法,它对数据分布和样本的数量没有要求。该检验通常用于检测两个总体的分布有没有显著差异。原假设为:随机从两个总体中各选择一个变量,第一个变量大于第二个变量和第二个变量大于第一个变量的概率是相等的。该检验通常用于单细胞差异表达(Differential expression)分析,衡量每个差异表达基因在两个细胞亚群中差异表达的显著性。在实际应用中,我们需要用FDR方法计算其FDR修正后的P值。

  学生t检验(Student t-test),要求考察数据必须来自正态分布的总体,要求较高。其目标通常是测试一组来自正态总体的样本的均值是否等于某个数值;或者两组来自正态总体的样本的均值之差,是否等于某个数值。由于正态分布在现实中的存在很普遍,因此常见的分数(例如:Enrichment score)都可以用该检验测试差异的显著性。

  Fisher准确检验(Fisher's exact test)基于超几何分布,常用于分析2*2列联表,对数据分布没有要求。由于计算量大,所以通常用于小规模数据。事实上,它对于任何数据都是有效的。名字中的“准确”表示,与卡方检验不同,无论数据规模如何,Fisher准确检验计算得到的P值都是准确值,而不是近似值。该检验的目标是:检测列联表的行变量和列变量是否不相关(原假设)。在生物信息中,Fisher准确检验最成功的案例就是转录因子结合位点的识别工具——DREME。用来衡量结合有某个转录因子序列数量,是否与测试集和背景集有关。

  与Fisher准确检验类似,双比率z检验(Two proportion z-test)也适用于比较两个群体中具备某个属性的样本所占的比率是否存在显著差异。自然地,原假设就是“不存在显著差异”。Fisher准确检验往往用于小规模数据;双比率z检验通常用于大规模数据。注意:双比率z检验要求数据必须服从二项分布。考虑到“正态分布-泊松分布-二项分布”的普遍性和相似性。在使用双比率z检验之前,必须证明数据的分布。

  以上是我目前总结的生物信息中常用的统计检验方法和适用场景以及条件。统计学中分布数不胜数,之后还会持续更新。



https://wap.sciencenet.cn/blog-3447504-1317663.html

上一篇:关于深度学习和单细胞数据分析的一点笔记
下一篇:当审稿人质疑你的数据规模
收藏 IP: 144.121.166.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 16:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部