zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

consexpressionR:一致差异基因表达分析工具包

已有 525 次阅读 2025-4-13 11:17 |个人分类:科普|系统分类:科普集锦

consexpressionR:一致差异基因表达分析工具包

Bulk RNA测序(RNA-Seq)是一种在广泛背景下研究基因表达机制的流行方法。由于高通量测序技术的出现,RNA-Seq研究的重要性显著增加,该技术能够以比以前方法更低的成本和更短的时间生成大量数据。处理和分析这些数据的计算方法也发展迅速。

现代高通量测序平台,如Illumina HiSeq,每个生物样本产生数百万个成对的末端读取,这些读取的长度可以在150300个碱基对之间。RNA-seq数据分析通常涉及几个关键步骤。常见的步骤是:I)修剪:从读取中删除低质量的碱基和测序适配器;II 过滤:排除质量低或长度不足的读取;III 比对:将RNA-seq读数映射到参考基因组或转录组;IV)计数:通过计数每个基因或感兴趣区域的读数来量化基因表达;VI)归一化:调整计数数据以校正技术因素并确保不同样本之间的可比性,标准归一化方法包括FPKMTPMRPKM等;VI)差异表达分析:鉴定不同条件或样品组之间表达显著不同的基因;VII)可视化:以图形和表格形式呈现结果,以便于理解。

RNA-Seq数据最常见的目的是发现不同条件或组之间的差异表达基因(DEG)。在识别DEG的计算方法中,一些策略考虑了用于表达数据分析的参数统计分布,即参数方法。其他策略不考虑关于表达数据的先验知识,称为非参数方法。

关于差异基因表达,已经开发了Python版本工具consexpressionconsexpression的主要特征是基于群体智慧理论对DEG进行识别。此外,consexpression旨在执行上述七个标准RNA-Seq数据分析步骤中的四个:比对、计数、归一化和差异表达。用户只需要一个序列读取文件(.fastq)、一个参考基因组(.fasta)和注释文件(.gff),就可以接收通过五种或多种方法混合鉴定为差异表达的基因列表。然而,由于其对非Python用户使用的局限性,需要一种通过consexpression进行差异表达分析分析的替代方案。

最近,Costa-Silva等人开发了一个名为consexpressionR(图1https://github.com/costasilvati/consexpressionR)的consexpression工具R版本的。该软件包以R语言开发,使R用户能够轻松调整差异表达分析参数。

image.png

1 consequensityR分析工作流程和主要功能。工作流程包括四个步骤,其中只有可视化是可选的

consexpressionR的分析从计数表的整数值开始,如图1所示。DEG的分析是通过以R包格式实现的七种方法进行的,即:edgeRDESeq2baySeqEBSeqNOISeqlimmaknowSeq。对于SAMSeq方法,只允许使用计数数据执行,该方法不对量化数据执行。KnowSeq方法仅对公共注释数据中具有参考基因组和有效基因名称的数据执行,如ENSEMBL

实验结果表明:基于RNA-Seq的差异表达方法已经达到了很高的成熟度。因此,目前的贡献侧重于提高易用性和增强现有方法的鲁棒性。未来的研究方向包括探索基于一致的单细胞RNA-SeqscRNA-Seq)数据分析。总之,consexpressionRBulk RNA-Seq表达分析提供了一个可靠的R包,可提供高度特异性的结果。

参考文献

[1] Juliana Costa-Silva, David Menotti, Fabricio M. Lopes. consexpressionR: an R package for consensus differential gene expression analysis. arXiv:2503.21546v1, doi: https://doi.org/10.48550/arXiv.2503.21546 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://wap.sciencenet.cn/blog-571917-1481783.html

上一篇:GLACIER:解码空间细胞拓扑的因果驱动因素
下一篇:人类癌细胞中环状RNA功能景观
收藏 IP: 112.116.155.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-4-26 09:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部