这篇博文是在我之前写的《HiCPro的安装与使用》以及《HiCPro分析流程详解》的基础上对统计结果进行解读。
因为博文过24h后无法再修改,这里先对《HiCPro的安装与使用》中多线性的问题做一点补充:
在config-hicpro.txt文件中有个N_CPU,它表示单端比对时调用的bowtie2使用的线程数,通过个选项可以解决多线程限制问题
闲话少述,直接进入这篇博文的正题——统计结果解读
按照《HiCPro的安装与使用》中的方法,在第二步(HiCPro_step2_xx.sh)跑完后,会在输出目录下生成一个hic_results子目录,在其下有个stats,再往下一级还有一个样本名命名的子目录,在这个子目录下,存放着所有的统计结果。
具体路径如下:hicpro_output/hic_results/stats/xx
本博文主要讲解这其中五个文件记录信息之间的关系
1. xx_R1.mmapstat和xx_R2.mmapstat
它们记录了PE reads分开比对的结果。以xx_R1.mmapstat文件为例,其中total_R1是总的R1 reads;mapped_R1有由两个部分组成,分别是第一步 (HiCPro称为global alignment)比对上的reads pair(即global_R1)和第二步比对(HiCPro称为local alignment)比对上的reads对(即local_R1)。
2. xx.mpairstat
这个文件主要记录的是reads对的情况,包括
两端均未比对上的reads pair(Unmapped_pairs)
只有一端比对上的reads pair(Pairs_with_singleton)
低质量的reads pair(Low_qual_pairs)
唯一比对reads pair(Unique_paired_alignments)
具体关系如下:
Total reads = Unmapped pairs + Pairs with singleton + Low qual pairs + Unique paired alignments
注:这里的Total reads与xx_R1.mmapstat中的total_R1一致(也应该与xx_R2.mmapstat中的total_R2一致);
Unique paired alignments用于后续分析
3. xx.mRSstat
这个文件主要记录的是过滤掉的invalid Hi-C products,包括Dangling end pairs、Religation pairs、Self Cycle pairs、Dumped pairs等,如下图所示
具体关系如下:
Unique paired alignments = Valid pairs + Dangling end pairs + Religation pairs + Self-cycle pairs + Dumped pairs
注:其中有一些结果是0,这里就没有加进去;
Valid pairs用于后续分析
4. xx_allValidPairs.mergestat
这个文件中记录的是valid pairs中去除PCR duplication后,trans比对(比对到reference中不同序列)和cis比对(比对到reference中同一条序列)的情况
其中valid_interaction与xx.mRSstat文件中一致;valid_interaction_rmdup表示去除PCR duplication后的valid interaction。
Valid interaction rmdup = Trans interaction + Cis interaction
参考材料:
Nicolas Servant, Nelle Varoquaux, Bryan R. Lajoie. et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing. Genome Biology. 2015.
转载本文请联系原作者获取授权,同时请注明本文来自卢锐科学网博客。
链接地址:https://wap.sciencenet.cn/blog-2970729-1196314.html?mobile=1
收藏