||
consexpressionR:一致差异基因表达分析工具包
Bulk RNA测序(RNA-Seq)是一种在广泛背景下研究基因表达机制的流行方法。由于高通量测序技术的出现,RNA-Seq研究的重要性显著增加,该技术能够以比以前方法更低的成本和更短的时间生成大量数据。处理和分析这些数据的计算方法也发展迅速。
现代高通量测序平台,如Illumina HiSeq,每个生物样本产生数百万个成对的末端读取,这些读取的长度可以在150到300个碱基对之间。RNA-seq数据分析通常涉及几个关键步骤。常见的步骤是:I)修剪:从读取中删除低质量的碱基和测序适配器;II) 过滤:排除质量低或长度不足的读取;III) 比对:将RNA-seq读数映射到参考基因组或转录组;IV)计数:通过计数每个基因或感兴趣区域的读数来量化基因表达;VI)归一化:调整计数数据以校正技术因素并确保不同样本之间的可比性,标准归一化方法包括FPKM、TPM、RPKM等;VI)差异表达分析:鉴定不同条件或样品组之间表达显著不同的基因;VII)可视化:以图形和表格形式呈现结果,以便于理解。
RNA-Seq数据最常见的目的是发现不同条件或组之间的差异表达基因(DEG)。在识别DEG的计算方法中,一些策略考虑了用于表达数据分析的参数统计分布,即参数方法。其他策略不考虑关于表达数据的先验知识,称为非参数方法。
关于差异基因表达,已经开发了Python版本工具consexpression。consexpression的主要特征是基于群体智慧理论对DEG进行识别。此外,consexpression旨在执行上述七个标准RNA-Seq数据分析步骤中的四个:比对、计数、归一化和差异表达。用户只需要一个序列读取文件(.fastq)、一个参考基因组(.fasta)和注释文件(.gff),就可以接收通过五种或多种方法混合鉴定为差异表达的基因列表。然而,由于其对非Python用户使用的局限性,需要一种通过consexpression进行差异表达分析分析的替代方案。
最近,Costa-Silva等人开发了一个名为consexpressionR(图1,https://github.com/costasilvati/consexpressionR)的consexpression工具R版本的。该软件包以R语言开发,使R用户能够轻松调整差异表达分析参数。
图1 consequensityR分析工作流程和主要功能。工作流程包括四个步骤,其中只有可视化是可选的
consexpressionR的分析从计数表的整数值开始,如图1所示。DEG的分析是通过以R包格式实现的七种方法进行的,即:edgeR、DESeq2、baySeq、EBSeq、NOISeq、limma和knowSeq。对于SAMSeq方法,只允许使用计数数据执行,该方法不对量化数据执行。KnowSeq方法仅对公共注释数据中具有参考基因组和有效基因名称的数据执行,如ENSEMBL。
实验结果表明:基于RNA-Seq的差异表达方法已经达到了很高的成熟度。因此,目前的贡献侧重于提高易用性和增强现有方法的鲁棒性。未来的研究方向包括探索基于一致的单细胞RNA-Seq(scRNA-Seq)数据分析。总之,consexpressionR为Bulk RNA-Seq表达分析提供了一个可靠的R包,可提供高度特异性的结果。
参考文献
[1] Juliana Costa-Silva, David Menotti, Fabricio M. Lopes. consexpressionR: an R package for consensus differential gene expression analysis. arXiv:2503.21546v1, doi: https://doi.org/10.48550/arXiv.2503.21546
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-4-26 09:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社