||
CellCov:基因体覆盖分析
单细胞 RNA 测序已广泛普及,并被广泛应用于生物医学研究。近期技术进步已将其应用范围从简单的 RNA 标记(3'或 5'端)的基因级计数扩展到对转录本的全面覆盖。随着新方法不断涌现,全面的基准测试和适当的质量控制对确保结果的有效性变得越来越重要。
全长 RNA 测序质量的一个关键方面是基因体覆盖,描述测序读段如何从基因的 5'端分布到 3'端。理想情况下,每个位置的排序概率相同,从而实现均匀覆盖分布,但实际作中往往并非如此。3'偏倚的常见原因包括酶促断片、逆转录不完全以及 mRNA 降解,结合多 A 捕获策略。相反,5'偏置可能由断裂结合 5′端计数或内部寡-dT 引发产生。因此基因体覆盖率不仅取决于所用方案,还反映了样本质量。研究表明,偏斜剖面能预测低质量细胞,并可用于过滤,凸显了该指标在单个细胞中的价值。
然而,常用用于可视化覆盖一致性的工具,如 RSeQC和 QoRT,则是基于批量数据运行。虽然 SkewC旨在分析单细胞数据,但它通过将输入拆分为每个细胞的 BAM 文件,并对每个细胞分别运行类似 RSeQC 的算法实现这一目标,这在计算效率上较低,且与单细胞方法日益增长的可扩展性相悖。
此外,现有工具无法比较不同性质(如 GC 含量、表达水平或转录本长度)的基因或转录本的覆盖分布。因此,目前对单细胞覆盖分布的详细研究尚不可行。为克服这些局限,Chen等人介绍了 CellCov(https://github.com/ziegenhain-lab/CellCov),一款轻量级工具,能够报告特征(基因或转录本)和细胞分辨率的覆盖率。这种格式便于灵活的下游分析,便于在单细胞层面进行全面比较,同时便于不同特征属性间的分层。
为说明 CellCov 的实用性,作者们计算了由多种 scRNA 测序方法生成的公开数据集覆盖率(Smart-seq3xpress、MAS-seq、10x Genomics 3' 基因表达 v3 和 R2C2),并用提供的绘图脚本探索输出。CellCov 输出一个覆盖矩阵,具有 100 百分位的箱,分辨率为单细胞特征,可以通过用户自定义的细胞和/或特征注释(如细胞类型、基因长度、GC 含量、表达)进行分层,并与稳健总结汇总以实现协议比较。例如,按外显子长度分组基因,并联合可视化了四个数据集,包括细胞间的变异性,显示出化学依赖的长度对覆盖谱的影响(见图 1a)。CellCov 还计算了一个细胞偏度指标,这是一种无方向的指标,衡量基因体中非均匀覆盖分布情况(见图 1b)。

图1 单细胞 RNA-seq 协议中的基因-体覆盖。(a)根据测序协议(SS3X、R2RC-ONT、10X 和 MAS-Seq)按外显子长度(<2 kb、2–3 kb、3–5 kb 和>5 kb)分组的基因,显示了归一化的基因体覆盖率(100 百分位区间,5′至 3′)。实线表示中位覆盖分布;阴影带表示细胞间变异性为四分位数范围(第 25 至第 75 百分位)。(b)蜂窝覆盖偏斜被计算并以小提琴图形式显示
参考文献
[1] Shiyao Chen, Urša Zevnik, Christoph Ziegenhain. CellCov: gene-body coverage profiling for single-cell RNA-seq. bioRxiv 2026.01.30.702727; doi: https://doi.org/10.64898/2026.01.30.702727
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-24 21:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社