YangLiBMBL的个人博客分享 http://blog.sciencenet.cn/u/YangLiBMBL

博文

当审稿人质疑你的数据规模

已有 2925 次阅读 2021-12-23 03:57 |个人分类:科研笔记|系统分类:科研笔记

    湿实验室对新鲜出炉的测序数据(例如:scRNA-Seq)完成分析后,可能会面临审稿人的如下质问:“鉴于scRNA-Seq数据中,每个细胞类型的规模太小,无法判断细胞类型之间的某个指标存在显著差异。”这种情况应该如何应对?下面是本人基于自身的小经验,给出的上下两策。

    如果实验室财力和人力雄厚,不介意增加实验样本(Sample)数,那么最可靠的方法当然是再做几组实验。为了公平起见,最好保证实验组和对照组的样本数是相等的,例如:三组阿尔滋海默症(Alzheimer's Disease,AD)患者样本和三组对照样本。然后利用Seurat的官方教程走一遍:质控-降维-消除批次效应-整合-聚类-分型。得到了大规模的细胞之后,就可以首先用弗里德曼检验(Friedman test)来判断多个细胞类型之间某个指标是否存在显著差异。如果存在显著差异,那就需要根据生物直觉来猜测到底哪一对儿细胞类型之间具有显著差异。然后,通过Wilcoxon秩和检验来检测每一对怀疑的细胞类型之间的差异显著性。如果审稿人感兴趣的是某个指标的高低(例如:差异表达基因的数量),并没有涉及细胞类型之间的比较,我们可以通过逐个增加样本数量的方法来计算每个样本数量对应的指标的高低,并观察趋势变化。例如:我们有六个样本,那就针对随机抽取1-6个样本的所有组合,计算出这个指标的大小。然后,通过一系列箱线图(Box-plot)呈现在一个坐标系中。横轴表示样本数量,纵轴表示指标的大小。我们可以通过插值法将每个横坐标对应的箱子的中位数(Median)连接成一条平滑曲线。如果能观察到在尚未达到六个样本的情况下,这个指标就趋于稳定了,这就说明我们的样本数量是充足的。注意:我们可以通过学生t检验(Student t-test)来判断两个箱子之间存在显著差异;但是不能用它来判断不存在显著差异。因为P值不显著并不能得到相反的结论。这种情况下,就不要做统计检验了。

    如果实验室经费有限,人手不够,或者单纯想“偷懒”,我们仍然有方法应对审稿人的提问。这就纯粹地依靠统计学的力量了,该方法就是:自助法(Bootstrap或者Bootstrapping)。简言之,Bootstrap的目标是:通过样本估计总体。根据数据的总体分布是否已知,Bootstrap可分为参数Bootstrap和非参数Bootstrap。参数Bootstrap是在总体分布已知的前提下,通过样本估计总体分布的参数;非参数Bootstrap是通过样本估计总体。在实际的生物信息学问题中,总体分布往往是未知的。因此,我们的目标是估计总体,而不是总体分布的某个参数,所以非参数Bootstrap适用于多数生物信息问题。这里,我们用一个简单的scRNA-Seq分析问题为例来阐述Bootstrap的过程,即:比较两个实验条件(实验组和对照组)下某一个细胞类型在所有细胞中比例的差异。Bootstrap输入的是一个数据框(Data Frame),一行表示一个细胞,三列分别表示:1、细胞ID、细胞类型和实验条件。在使用Bootstrap之前,我们需要定义一个函数,作为要估计的变量,在这个例子上就是某个细胞类型所占的比例。运行Bootstrap,R语言中的boot函数会均匀地有放回抽取与原始数据同样数量的细胞,重复10000次。我们就得到了10000个与原始数据规模相同的Resample。每个Resample上都能计算这个细胞类型所占的比例。boot会输出:

  1. Boot bias:Resample计算到的某个细胞类型的比例的平均值与原始值的差;

  2. Boot std.err(也就是boot SE):所有Resample上计算的细胞类型的比例的标准误差;

  3. Boot median:所有Resample上计算的细胞类型的比例的中位数;

  4. Confidence Interval:95%的置信区间,也就是我们有95%的把握断言,总体数据上这个细胞类型的比例会落在这个区间内。

    两种方法足够回应审稿人的质疑,当然实验数据是硬通货。能用第一种方法,就尽可能提供足够的样本,这相对于Bootstrap更具说服力的。



https://wap.sciencenet.cn/blog-3447504-1317759.html

上一篇:生物信息学中的统计检验大起底
下一篇:inCITE-Seq以及“mRNA-核内蛋白”线性回归模型
收藏 IP: 144.121.166.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 08:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部