||
QCatch:单细胞测序数据质控评估和分析框架
质量控制(QC)是测序数据分析中的一个关键步骤。它通过识别样本制备和文库测序过程中引入的技术伪影、失败和偏差,来确保数据的完整性。这一过程在大规模单细胞 RNA 测序研究中尤为重要,因为数据质量直接影响下游分析的准确性和鲁棒性。
和大多数技术一样,单细胞 RNA 测序(scRNA-seq)中的 QC 评估通常依赖于详细、全面的 QC 报告。虽然存在通用QC 工具,但许多 scRNA-seq 处理工具都包含自己的报告模块,能够生成针对其特定定量输出的定制化 QC 总结。例如,Cell Ranger生成一个基于网络的 QC 报告,不仅包含标准指标,还能在检测到 10X Genomics 实验中低质量或失败样本的迹象时显示警告,从而突出潜在问题。最近,一个适用于广泛 UMI 为基础实验的单细胞数据处理软件生态系统,可通过 simpleaf提供的简化命令行界面访问。该生态系统基于alevin-fry构建。alevin-fry 是一个快速、准确且内存高效的工具,用于单细胞测序数据的剪接感知定量。通过设置剪接感知定量的标志,alevin-fry 分别报告基因的剪接和非剪接转录本计数,使其适用于广泛的下游分析。
尽管 simpleaf 提供了用于端到端原始数据处理的可简化界面,alevin-fry 表现出色,以及 piscem(https: //github.com/COMBINE-lab/piscem)、salmon 和 cuttlefish 等各种后端工具,但这个生态系统目前缺乏一个功能丰富的后处理模块,用于 QC 报告和其他关键任务,如细胞识别(有时也称为空液滴检测)。在评估剪接感知定量结果时,这一差距尤为明显。尽管为 alevin生成的结果设计的AlevinQC(https://github.com/csoneson/alevinQC)已扩展支持 alevin-fry 的部分输出,但仍需要一个更全面且完全集成的、专门针对 alevin-fry 的 QC 解决方案。
为了满足用户社区不断增长的需求,Gao等人开发了 QCatch(图1,https://github.com/COMBINE-lab/QCatch?tab=readme-ov-file),这是一个基于 Python 的开源命令行工具,专门设计用于支持 alevin-fry 生成的量化结果的一系列后处理任务。作为单细胞软件生态系统的最新补充,QCatch 通过执行包括细胞识别在内的关键处理步骤,填补了单细胞数据分析流程中的重要空白。此外,QCatch 提供了一套全面的 QC 指标,这些指标专为 alevin-fry 的传统和剪接感知量化而设计,并呈现通过易于阅读的表格和交互式可视化结果。
图1 QCatch 报告预览,展示了关键组件和典型内容。该图包含从原始报告中精选并稍作格式调整的部分内容
QCatch 的开源、模块化架构促进了透明性,确保了可重复性,并使不同 UMI 技术检测的多种单细胞测序数据集具有可用性和适应性。优先考虑可用性和全面性,QCatch 生成直观、交互式的 QC 报告,便于准确评估数据质量。这些报告使研究人员能够更有信心地解释定量结果,支持更可靠的生物学结论。QCatch 设计时考虑了用户友好性,接受 alevin-fry 或 simpleaf 的输出目录作为输入,并输出 HTML 报告和富含注释的 H5AD 对象(单细胞数据存储最广泛使用的磁盘格式之一)。这种设计选择实现了与 scVerse 生态系统的无缝集成,该生态系统目前包含超过 80 种单细胞和空间转录组数据分析工具,如 scanpy。
参考文献
[1] Yuan Gao, Dongze He, Rob Patro. QCatch: A framework for quality control assessment and analysis of single-cell sequencing data, bioRxiv, 2025.06.15.659779; doi: https://doi.org/10.1101/2025.06.15.659779
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-2 21:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社