zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

QCatch:单细胞测序数据质控评估和分析框架

已有 486 次阅读 2025-8-1 16:09 |个人分类:科普|系统分类:科普集锦

QCatch:单细胞测序数据质控评估和分析框架 

质量控制(QC)是测序数据分析中的一个关键步骤。它通过识别样本制备和文库测序过程中引入的技术伪影、失败和偏差,来确保数据的完整性。这一过程在大规模单细胞 RNA 测序研究中尤为重要,因为数据质量直接影响下游分析的准确性和鲁棒性。 

和大多数技术一样,单细胞 RNA 测序(scRNA-seq)中的 QC 评估通常依赖于详细、全面的 QC 报告。虽然存在通用QC 工具,但许多 scRNA-seq 处理工具都包含自己的报告模块,能够生成针对其特定定量输出的定制化 QC 总结。例如,Cell Ranger生成一个基于网络的 QC 报告,不仅包含标准指标,还能在检测到 10X Genomics 实验中低质量或失败样本的迹象时显示警告,从而突出潜在问题。最近,一个适用于广泛 UMI 为基础实验的单细胞数据处理软件生态系统,可通过 simpleaf提供的简化命令行界面访问。该生态系统基于alevin-fry构建。alevin-fry 是一个快速、准确且内存高效的工具,用于单细胞测序数据的剪接感知定量。通过设置剪接感知定量的标志,alevin-fry 分别报告基因的剪接和非剪接转录本计数,使其适用于广泛的下游分析。 

尽管 simpleaf 提供了用于端到端原始数据处理的可简化界面,alevin-fry 表现出色,以及 piscemhttps: //github.com/COMBINE-lab/piscem)、salmon cuttlefish 等各种后端工具,但这个生态系统目前缺乏一个功能丰富的后处理模块,用于 QC 报告和其他关键任务,如细胞识别(有时也称为空液滴检测)。在评估剪接感知定量结果时,这一差距尤为明显。尽管为 alevin生成的结果设计的AlevinQChttps://github.com/csoneson/alevinQC)已扩展支持 alevin-fry 的部分输出,但仍需要一个更全面且完全集成的、专门针对 alevin-fry QC 解决方案。 

为了满足用户社区不断增长的需求,Gao等人开发了 QCatch(图1https://github.com/COMBINE-lab/QCatch?tab=readme-ov-file),这是一个基于 Python 的开源命令行工具,专门设计用于支持 alevin-fry 生成的量化结果的一系列后处理任务。作为单细胞软件生态系统的最新补充,QCatch 通过执行包括细胞识别在内的关键处理步骤,填补了单细胞数据分析流程中的重要空白。此外,QCatch 提供了一套全面的 QC 指标,这些指标专为 alevin-fry 的传统和剪接感知量化而设计,并呈现通过易于阅读的表格和交互式可视化结果。 

image.png

1 QCatch 报告预览,展示了关键组件和典型内容。该图包含从原始报告中精选并稍作格式调整的部分内容 

QCatch 的开源、模块化架构促进了透明性,确保了可重复性,并使不同 UMI 技术检测的多种单细胞测序数据集具有可用性和适应性。优先考虑可用性和全面性,QCatch 生成直观、交互式的 QC 报告,便于准确评估数据质量。这些报告使研究人员能够更有信心地解释定量结果,支持更可靠的生物学结论。QCatch 设计时考虑了用户友好性,接受 alevin-fry simpleaf 的输出目录作为输入,并输出 HTML 报告和富含注释的 H5AD 对象(单细胞数据存储最广泛使用的磁盘格式之一)。这种设计选择实现了与 scVerse 生态系统的无缝集成,该生态系统目前包含超过 80 种单细胞和空间转录组数据分析工具,如 scanpy 

参考文献

[1] Yuan Gao, Dongze He, Rob Patro. QCatch: A framework for quality control assessment and analysis of single-cell sequencing data, bioRxiv, 2025.06.15.659779; doi: https://doi.org/10.1101/2025.06.15.659779 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://wap.sciencenet.cn/blog-571917-1496120.html

上一篇:单细胞组学时代的细胞本体
下一篇:scEVE:单细胞数据聚类集成算法
收藏 IP: 39.128.49.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-8-2 21:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部