博文

PRPS：去除大规模RNA测序数据中不需要的变异

已有 1506 次阅读 2023-6-2 22:46 |个人分类:科普|系统分类:科普集锦

PRPS：去除大规模RNA测序数据中不需要的变异

RNA测序(RNA-seq)数据分析的一个重要步骤是归一化，即去除不同来源的不需要的变异，使样本内部和样本之间的基因表达测量具有可比性。在癌症RNA-seq数据中，样本内归一化应根据基因长度、GC含量和细胞组成进行调整，而样本间归一化应消除文库大小、肿瘤纯度和批次效应对数据的影响。有效地从RNA-seq数据中去除这种变异仍然是一个挑战。这种变化可能会在数据中引入人为的或模糊的真实生物信号，从而导致错误或遗漏的发现，从而导致误导性的生物学结论。

大多数RNA-seq归一化使用基于总计数或原始计数数据的其他统计特征(如上四分位数)计算的全局缩放因子来调整库大小变化。这些归一化简单地将每个样本中的所有基因计数除以单个比例因子。这种方法隐含的假设是，所有基因水平计数与比例因子成正比，并且应该充分调整它们以适应样本库的大小。当前RNA-seq归一化面临的挑战是，当合理比例的基因计数不能通过使用单一比例因子来适当调整文库大小时，无论它是如何计算的。基因水平计数和文库大小之间的偏差已经在单细胞RNA测序数据中讨论过;然而，这在RNA-seq数据中尚未得到证实。

肿瘤纯度——即实体肿瘤组织中癌细胞的比例——是癌症RNA-seq数据变化的另一个主要来源。这种变异被认为是肿瘤样本的内在特征，并与各种癌症类型患者的几种临床结果有关。肿瘤纯度可以被认为是研究中不希望的变异来源，其目的仅限于肿瘤特异性表达。肿瘤纯度的差异会影响样本内和样本间基因表达的比较，从而影响癌症RNA-seq研究的下游分析。目前的RNA-seq归一化和批量校正方法无法从数据中去除这种变异。使用回归模型调整肿瘤纯度变化的计数，如果该信号与纯度混淆，则有可能删除生物信号。

在大型RNA-seq研究中，批处理效应显然是不必要的变异来源，在这些研究中，样品必须在一系列条件下进行处理——例如，化学、协议和设备。大多数批处理效应校正方法都是基于线性回归的。对于单个基因表达，他们拟合了一个线性模型。然后，从残差中计算修正后的表达式值。这种方法隐含的一个假设是，生物种群在每批中均匀分布，也就是说，批次和生物条件之间没有关联。然而，如果存在这样的关联(由于混淆)，那么纠正基因表达计数为批量使用这些方法的效果有去除生物信号和批次效应的风险。此外，批次效应通常以不同的方式影响基因亚群。样本规范化，包括依赖于全局缩放因子的规范化，通常不能从数据中消除这种变化。

一种标准化方法（removing unwanted variation III，称为去除不必要的变异III (RUV-III)），用于技术复制的基因表达研究。RUV-III方法是一种线性模型，通过该模型可以通过技术复制和阴性对照基因推断已知和未知有害因素的存在和影响。然而，RUV-III有两个限制。首先，在技术复制不可用或在不需要的变异源之间分布良好的情况下，它不能有效地使用。其次，由于样本的肿瘤纯度在其所有技术重复中基本上是相同的，原始RUV-III无法使用标准技术重复来估计和消除这种变异。

在这里，Molania等人提出了一种称为伪样本的伪复制(pseudo-replicates of pseudo-samples，PRPS)的方法来部署RUV-III，以有效地从RNA-seq数据中去除文库大小、肿瘤纯度和批次效应的影响。PRPS方法克服了RUV-III在没有合适的技术复制或从癌症RNA-seq数据中去除肿瘤纯度引起的变异的情况下的局限性。为了将RUV-III与PRPS结合使用，首先需要确定数据中不需要的变异来源和主要的基于表达的生物种群。然后，创建了伪样本，这是来自小样本群体的硅样本，这些样本在不需要的变异和生物学方面大致相同。具有相同生物学特性的两个或两个以上的伪样本将被视为一个伪复制集。这些伪样本之间的基因表达差异很大程度上是不必要的变异。RUV-III利用这些差异，连同阴性对照基因，来估计和消除数据中不需要的变异。

应用于The Cancer Genome Atlas (TCGA)研究的三个RNA-seq数据集中，结果表明，RUV-III与PRPS可以有效地去除文库大小、肿瘤纯度和批效应，并获得不受这种变异影响的有意义的生物学结果。Molania等人证明带有PRPS的RUV-III可以用于规范化多个RNA-seq研究。并且他们还还提出了在大规模RNA-seq研究(如TCGA项目)中揭示不需要的变异的综合策略。

目前，TCGA泛癌症数据集仅支持四种癌症类型的癌症生物学。这四种癌症类型(TCGA数据集)分别是乳腺癌(BRCA)、肺癌(LUAD)、结肠癌(COAD)和直肠癌(READ)。这意味着RUV-III分析只能用于这四种癌症类型。这是因为这里的RUV-III方法需要至少一个大致已知的生物同质样本亚类。去除TCGA数据中没必要变异的相关工具包可以参见链接https://github.com/AbhishekSinha28/tcgaCleaneR。

参考文献

[1] Molania R, Foroutan M, Gagnon-Bartsch JA, Gandolfo LC, Jain A, Sinha A, Olshansky G, Dobrovic A, Papenfuss AT, Speed TP. Removing unwanted variation from large-scale RNA sequencing data with PRPS. Nat Biotechnol. 2023 Jan;41(1):82-95. doi: 10.1038/s41587-022-01440-w.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC