zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

NetSeekR:RNA转录组时序数据的网络分析管道

已有 841 次阅读 2023-11-20 08:57 |个人分类:科普|系统分类:科普集锦

NetSeekRRNA转录组时序数据的网络分析管道 

在过去十年中,由于NGS数据(STAR HISAT)的可用性,开发了多个RNA转录组数据分析管道,提高了分析性能。这些管道通常运行在研究中心或云计算服务器上的大型计算平台上,提供从数百万个reads到数千个基因表达估计的数据摘要,以及与实验处理相关的基因表达变化的统计分析(edgeRDESeq2)。最近已经开发了其他更快的管道,包括伪校准器或无校准工具(KallistoSalmon)和相关的统计数据分析平台(Sleuth)。随着RNA转录组数据分析工具性能的提高,有机会创建更大规模的设计,包括观察到的生物过程的时间动态,评估基因表达分析的最佳决策的多个管道的可能性,以及整合网络生物学工具来分析基因表达动态的能力。鉴于校准器之间的性能差异很大,以及它们对数据的依赖性,有必要比较来自多个软件工具的结果,以优化RNA转录组数据的处理。在这里,Srivastava等人将表现最好的拼接定位器之一STAR与伪定位器kallisto以及两种差异基因表达分析工具(edgeRSleuth)结合使用不同的统计模型和数据分析和可视化方法。 

典型的RNA转录组数据分析流水线包括数据预处理(测序数据的质量控制、reads修剪)reads定位和基因表达量化。这通常是随后的差异表达基因的评估,目的是评估控制基因转录的因素。统计分析来源于描述处理样本和对照样本的实验设计。除了识别差异表达基因外,后续分析的目的是利用功能和细胞系统信息来识别与治疗相关的网络和途径。在这里,Srivastava等人介绍了NetSeekR,这是一个RNA转录组数据分析R包,旨在分析转录组动力学,以推断在多个时间点测量的与实验处理相关的差异表达基因网络。 

这里介绍的核心软件流水线进行reads比对、差异基因表达分析、基因本体富集分析和差异表达基因的网络分析。包括各种参数设置,并举例说明差异基因表达分析的两种不同方法。管道的输入是一组文件,其中包含来自高通量测序步骤的原始读取。这些读数之前使用FastQC进行质量控制检查,并使用Trimmomatic软件进行修剪。管道的第一步是使用基因注释文件将处理过的reads与基因组位置对齐。NetSeekR目前实现了两种读取映射工具- STARKallisto -以便对转录本量化进行比较评估。下一步是鉴别差异表达基因。前一步中获得的数据是将计数数据映射到条件的子集,加载到R数据框并转换为矩阵格式。在管道边缘的这个阶段,提供了两种基因表达建模选择(edgeRSleuth),鉴别差异表达基因的互补方法,以及多种数据规范化和可视化方法。这两种软件工具都实现了对基因计数数据进行各种操作的统计方法,如过滤、规范化、多维绘图和聚类。 

管道的下一阶段旨在使用统计工具来预测基因网络,并计算在前一步中获得的差异表达基因的功能。NetSeekR目前包括两种方法来创建和分析相关的基因表达网络和推断调控网络。基因网络分析的目的是通过挖掘差异基因表达模式来确定与实验治疗相关的途径。为了完成这项任务,使用加权相关网络分析(WGCNA)来识别基因表达数据中的模式或集群,并使用动态调控事件挖掘器(DREM)来识别驱动观察到的基因表达的调控模式。NetSeekR管道利用WGCNA包提供的功能,完成基因表达的网络构建、模块检测和拓扑重叠矩阵构建。当实验设计提供时,管道的输出可以通过将基因表达变化与表型变化相关联来发现生物学上感兴趣的模块。该管道还使用GO富集分析来挖掘我们分析中确定的选定基因集的基因表达数据的功能。该管道实现DREM,从基因表达时间序列或一系列处理和/或基因型变异数据中推断调控网络。最后,利用igraphtidygraphR包使用自定义脚本对差异表达基因网络进行网络分析,绘制差异表达基因集与公共数据源基因网络之间的重叠节点,并将网络分析结果可视化。 

管道处理首先从配置文件中读取几个参数,并创建一个目录树来存储数据。管道的参数包括:指定分析类型的字符串、用于解释差异测试的协变量、通往差异基因表达样本比较矩阵(DGECM)的路径、通往DGECM所依据的实验设计矩阵的路径、差异基因表达分析的参数(用于差异基因表达统计测试的显著性水平)、通往包含原始读取序列的目录的路径、通往选定输出目录的路径、通往参考基因组的路径,以及布尔用于指定是实现Kallisto还是STAR管道,还是两者都实现。目录树的结构是这样的:当前工作目录是最顶层的节点,树中有用于DREMedgeRKallisto、网络分析、SleuthWGCNA数据的子目录。 

该管道的前两步包括构建转录组索引和定量读取。STARKallisto操作都是从R环境中通过Linux终端通过传递一个由参数组装而成的bash脚本来执行的。参数从配置文件传递给NetSeekR,以匹配正在执行的管道类型(STARKallisto)R实现的用于索引构建操作的bash脚本使用配置文件中的基因组注释文件引用(使用path作为输入参数),在目录树中创建的指定数据存储目录中为Kallisto/STAR生成转录组索引。 

读取量化步骤也从R代码中直接指向Linux终端。发送到终端的量化命令在bash脚本中使用配置文件中给函数的变量连接在一起。运行STAR/Kallisto量化方法的bash脚本是从R环境中调用的。STAR/Kallisto量化方法为每个被量化的样本创建一个目录,目录名来源于样本标识符。该命令的参数包括:shell脚本名称、读取数据目录路径、KallistoSTAR索引文件的路径、存储量化结果的目录路径以及日志文件目录路径。在R环境中运行bash脚本的优点是不需要将大型数据集(mRNA测序读取数据文件)加载到R的内存中,从而节省了时间并避免了内存大小问题。 

定量数据和设计矩阵都是在下一步的差异基因表达(DGE)计算中访问的。实验设计矩阵(DM)是一个文件,由样本路径和测序前实验设计中定义的各自特征组成。实验设计文件经过字符串处理,为差异基因表达软件提供了一个包含变量引用的数据集。作为输入的设计矩阵必须符合指定的格式,并且可以用文件编辑程序进行编辑。DMDGECM串联使用,DGECM提供给管道;DGECMDM的样本组合在一起进行差异基因表达测试。DGECM列在R代码中按行组合在一起,在每个样本标识符之间使用逻辑或字符串来选择测试样本。DGECM中的行数对应于分析中样本比较的总数,每行对应于一个比较实例。单元包含与实验设计文件中描述的样品相匹配的样品标识符。 

管道的最后一个组成部分是数据的网络分析。这涉及处理WGCNA输入(edgeR/Sleuth获得的差异表达基因及其估计表达值)以生成相关网络。接下来,NetSeekR使用topGo软件对同一组重排数据进行GO富集分析。最后一步是网络构建和图形可视化。管道的工作流程如图1所示。 

image.png

1 NetSeekR工作流程 

框架扩展可以用NetSeekR进行,这样其他包可以添加到框架中已经存在的包中。有几种用于分析网络的数据结构可供用户访问。这些数据结构可以从实现的网络分析函数中提取出来。NetSeekR的开发方式使用户可以轻松访问通过点状数据结构分析网络时所做的计算。因此,框架扩展应该与这些结构保持一致,因为在列/变量上映射函数变得很简单。附加的功能可以通过其他安装的包提供。例如,可以从implement_ network_analysis函数中的expr2变量返回的索引结构中访问诸如距离和邻接矩阵之类的聚类变量。进行的Gene-TF网络分析以相同的方式进行控制,即编写程序,然后在批处理数据集上使用。代码可以编写来实现一个新的过程或安装的函数,然后通过使用exp2变量中的现有列(包括单独的差分表达式数据集)将其插入NetSeekR 

总之,作者们设计了NetSeekR,这是一个新的集成管道,用于大规模实验设计,包括RNA转录组时间序列观察多种处理和多种基因型的基因表达动态。该管道垂直集成了几个读取映射和分析工具,以及调控和相关网络工具,并提供额外的网络分析、性能分析和网络可视化。NetSeekR利用高效数据分析管道的不断增加的可用性来生成从读取图谱到基因网络分析的基因组学分析工具的灵活集成。该集成允许快速设计基因表达分析,轻松比较几个管道(使用reads比对和伪比对),差异基因表达分析和网络分析,促进大规模NGS数据的基因组学发现。该管道通过将调控和关联网络的推理与网络结构分析和可视化工具相结合,提供网络预测和分析能力。通过这种方式,管道将基因组学数据分析的结果与系统生物学建模和模拟联系起来。NetSeekR可以在https://github.com/igbb-popescu-lab/NetSeekR中免费获取。 

参考文献

[1] Srivastava H, Ferrell D, Popescu GV. NetSeekR: a network analysis pipeline for RNA-Seq time series data. BMC Bioinformatics. 2022 Jan 28;23(1):54. doi: 10.1186/s12859-021-04554-1. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

 

image.png




https://wap.sciencenet.cn/blog-571917-1410318.html

上一篇:识别单个肿瘤的癌症驱动基因
下一篇:CancerProteome:破译癌症中蛋白质组景观资源
收藏 IP: 39.128.55.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 18:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部