zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

MicroRNA测序数据的统计建模

已有 535 次阅读 2024-6-5 13:56 |个人分类:科普|系统分类:科普集锦

MicroRNA测序数据的统计建模

MicroRNA-seq (miRNA-seq)数据分析通常使用为批量信使RNA-seq (mRNA-seq)开发的方法,如DESeq2edgeR。这些方法的一个基本方面是近似独立性假设,允许独立分析每个特征(miRNA)。当存在大量独特的RNA分子时,这种假设尤其有效,并且测序读数相当均匀地分布在这些分子上。在这些条件下,RNA序列的复杂多变量分布可以通过单变量分布的集合有效地逼近。关于microRNAmicroRNA物种之间存在不可忽视的表达竞争,其中一个microRNA的丰度必然会减少另一个microRNA的丰度。

为了了解miRNA-seq相对于mRNA-seq的组成性质,首先要注意在MirGeneDB中发现的人类miRNA物种总数为~ 500个,miRBase中发现的miRNA物种总数为~ 2000个,与人类中超过20,000个基因相比少了10-40倍。此外,读数的分布往往高度偏向于少数高表达的miRNA。在检查microRNAome数据集时,< 50miRNA通常占据90%的读数(1A)。检查重述数据集中的大量mRNA-seq样本,> 5000mRNA占总读数的90%(1B)。通过香农多样性指数测量,表达miRNA的覆盖范围进一步偏离均匀,并向更小数量的miRNA倾斜(1C)。而覆盖范围相当均匀地分布在mRNA之间(1D)。此外,不成比例的读取量归功于最高表达的miRNA,占总读取量的约20%(1E)。相反,在大量mRNA-seq数据中,最高表达的mRNA通常仅占总读取量的1-2%(1F)。在一系列数据集中,两种最高表达的miRNA之间的Spearman相关性为负,而mRNA没有观察到这种模式(1 G-H)

image.png

1 特征数占读取量的90%A所考虑的所有miRNA样本所需的特征数低于50B除脂肪细胞外,mRNA表达90%读数所需的特征中位数超过5000个。C miRNA的归一化香农指数小于mRNA,表明表达的物种数量较少。箱形图显示IQR1-3。分配给 miRNA样本中表达最高的10个特征的读取比例的中位数。miRNA样品中的顶部特征占大部分表达。G内皮细胞和CD8 T淋巴细胞miRNA样本与H对应的内皮细胞和CD8 T淋巴细胞miRNA样本的spearman相关性。miRNA数据通常呈负相关

为了解决表达竞争问题,Jun等人提出了一个负二项式softmax回归(NBSR)模型,通过使用softmax函数关联底层参数来扩展独立的负二项式回归。具体来说,softmax回归模型将样本i中所有miRNA序列中源自特征j的归一化丰度或分数表示为πij。样本i中特征j的观测计数Yij采用负二项分布建模,其均值为其比例因子si与归一化丰度水平πij的乘积。

作者们在违反近似独立性假设的模拟数据集上评估了NBSR,并将其与DESeq2EdgeR在两种条件下(对照与处理)进行了比较,每种条件下n = 10个样本。通过计算均方根误差、置信区间(CI)覆盖率和精度,比较了使用假阳性和阴性率的方法的统计能力。对每种方法在FDR阈值α{0.01, 0.05, 0.1}处得到的p值应用Benjamini-Hochberg校正。NBSR在不同的模拟设置中显示RMSE < 1,在所有考虑的FDR阈值中显示平均精度> 0.9(2 A-B)。获得了95%CINBSR既严格又敏感,因为所考虑的每个阈值的假阳性率分别为0.002010.008790.0187,假阴性率分别为0.02290.01540.0125,证明了通过建模相对丰度获得的统计能力(2 C)

image.png

2 三种方法对模拟数据的均方根误差。箱线图显示了20个重复中的IQR1-3B三种方法的精度比较。置信区间为±2个标准误差,取自20个重复。C三种方法的假阳性率和阴性率在20个重复中平均。D . DESeq2NBSRlog2倍变化值的比较。除了蓝色部分(mRNA+)外,两种方法基本一致。EMA图所示,mRNA+特征稀疏且低表达。F通过DESeq2选择α = 0.05的显著特征,按log2倍变化排序,显示前15个特征。GNBSR选择的归一化丰度绝对变化排序的α = 0.05的前15个显著特征

此外,将NBSR的色散参数与归一化丰度进行建模可以进一步提高性能。用生物变异系数(CV)来解释弥散参数,它测量了生物重复之间πij相对于其期望的变异性。mRNA-seq方法通常为所有实验条件下共享的每个特征假设一个分散参数,当miRNA表达在不同实验条件下发生显著变化,改变了归一化丰度的潜在分布时,这一假设可能被违反。虽然mRNA-seq方法模拟了与平均表达水平相关的分散度——对高表达的特征有效——但这可能掩盖了低水平表达的miRNA的真正生物学变异性。具体来说,平均表达水平可能会混淆特征的典型丰度水平和样本特定比例因子。通过根据标准化丰度水平对色散进行建模,目标是将πij表示的丰度的规范概念与比例因子解耦。推导了模拟数据的确切生物CV,并将其与从NBSR模型、DESeq2EdgeR获得的分散估计进行了比较。由于DESeq2EdgeR假设了特定特征的分散,这些方法产生的估计往往落在条件AB的真实生物CV之间。另一方面,NBSR与真实生物CV密切一致。

作者们评估了NBSRmicroRNAome数据集中的肝癌细胞系dk01dks8dld1(每个细胞系n = 3)的作用。log2倍变化显示NBSRmRNA-seq方法之间存在实质性差异(2D): mRNA-seq方法估计的绝对log2倍变化> 1,而NBSR方法估计的绝对log2倍变化< 0.1。对这些miRNA的深入研究表明,这些miRNA是稀疏的,因此表达水平较低(2E)。该用例表明,NBSR对稀疏性具有鲁棒性,无需选择要纳入分析的miRNA的预处理步骤。这是有利的,因为对miRNA的过滤不像对mRNA的过滤那样被很好地理解。所有被NBSR专门选择为显著的miRNA都在所有样本中表达,并且在细胞系中可以清楚地观察到表达差异(2E)。选择差异特征的标准做法考虑两个标准,(1)p(例如< 0.05)log2倍变化超过一定阈值。当高度表达的特征占读取的很大比例时,使用log2倍的变化可能会有问题,因为这些特征不太可能大幅增加倍数。在肝癌细胞系中,最上面的特征占了40%的读数。为了减轻这种担忧,建议考虑绝对差异(例如,概率的绝对变化超过> 0.0001)。这为p值和log2倍变化提供了额外的背景,以确定miRNA物种组成的有意义变化(2F-G)

总体而言,NBSR显示出了几个理想的特性:(1)不同实验条件下的差异表达可以直观地解释为使用比率(对数相对风险)或概率差的表达概率变化;(2)不需要过滤miRNA,因为稀疏表达的miRNA被认为与其他miRNA相关;(3)生物变异系数与特征的归一化丰度水平之间的关系可以直接建模,与mRNA-seq方法相比,提高了统计能力,同时实现了更严格的置信区间。该模型有两个扩展可以提高性能:(i)考虑共享相同前体转录物的miRNA之间的正相关性;(ii)考虑称为isomiRmiRNA的异构体。本文介绍的NBSRhttps://github.com/junseonghwan/nbsr/)及其相关方法为观察和分析miRNA提供了一个新的视角。

本研究最大的特点是阐述了:miRNA测序数据与mRNA测序数据的表达丰度有显著区别,因此在做差异表达分析时候,应该考虑这种差异并采取适合每个数据特点的差异表达分析方法进行差异miRNAmRNA筛选。

参考文献

[1] Jun SH, McCall M. Statistical Modeling for MicroRNA Sequencing Data. bioRxiv, 2024: 2024.05. 07.592964.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://wap.sciencenet.cn/blog-571917-1436995.html

上一篇:缺失值条件下推断基因调控网络:因果视角
下一篇:GRouNdGAN:基因调控网络引导的因果隐式生成模型来模拟单细胞数据
收藏 IP: 112.116.155.*| 热度|

3 宁利中 李升伟 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-22 04:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部