||
Pertpy:扰动分析的端到端框架
理解细胞对刺激的反应对于描述生物现象和机制至关重要。单细胞数据已越来越多地从观察性实验转向扰动实验,包括基因修饰、化学处理、物理干预、环境变化、疾病及其组合。Perturb-seq、CROP-seq 和 Sci-plex 等技术利用单细胞读数来大规模捕捉扰动。通过监测细胞内在状态的改变,单细胞扰动分析为基因程序的变异、不同组织间的共有和分化反应、药物靶点和相互作用、扰动后的细胞类型频率和细胞间相互作用提供了见解。
针对这些复杂数据已开发出统计和机器学习分析方法,例如与自闭症风险基因相关的细胞状态或初级人类 T 细胞的刺激反应。然而,高通量扰动筛选的规模和复杂性可能带来相当大的解释挑战,缺乏有意义的低维表示以及关于细胞系或扰动的额外背景信息。当前的扰动分析框架,如 MUSIC、ScMAGeCK、SCEPTRE、GSFA 和 FR-Perturb,主要关注 CRISPR 扰动分析,忽视了其他扰动数据类型和扰动分析步骤。此外,目前还没有现有的分析框架能够扩展到基因组规模的数据集,使用公共注释对数据进行背景化,并在不同工具之间使用通用数据结构。此外,许多工具存在维护问题或局限于 R 生态系统,使分析变得复杂。单细胞领域其他广泛使用的框架,如用于适应性免疫受体数据的 scirpy 和用于概率建模的cvi-tools,已经展示了在为开发者提供灵活构建模块的同时,实现高效多模态数据分析的重要性。受其影响以及扰动数据高效框架的缺乏,Heumos等人在 scverse 中提出了一个新的专注于扰动数据的框架Pertpy(图1)。

图1 Pertpy 框架的模块。a,单模态或多模态单细胞源自基因改造、化学处理、物理干预、环境变化或疾病的扰动数据被多个数据库的元数据所丰富。在预处理过程中,可能会去除细胞周期和批次效应等混杂因素。目标细胞被标记为成功或未成功扰动。这些模块共同实现了对有意义的扰动空间的计算。b, Pertpy 能够根据研究问题进行下游分析。这些分析包括差异表达分析、响应预测、MCP的确定、扰动间距离的计算以及作用机制富集
Pertpy 是一个用于 Python 中的扰动分析的框架,专门设计用于组织、分析和可视化复杂的扰动数据集。Pertpy 具有高度的灵活性,可应用于不同检测方法、数据类型、规模和扰动类型的数据集,从而统一了以往针对特定数据类型或特定检测方法的单一问题解决方案。该框架设计用于将外部元数据与测量数据集成,通过快速构建的、针对特定实验的管道,实现结果的前所未有的情境化,从而获得更稳健的结果。为了评估扰动方法和所获得表示,作者们实现了一系列共享指标。Pertpy 通过其稀疏和内存高效的实现,解决了广泛的应用场景和不断增长的数据集类型问题,这些实现利用了并行化和图形处理单元(GPU)加速库 JAX,从而使其比原始实现快得多。通过将 Pertpy 应用于三种不同、流行、单细胞 RNA 测序(scRNA-seq)扰动应用案例,展示了其多功能性。 为了展示 pertpy 如何发现新的基因程序,作者们研究了一个 CRISPR 激活(CRISPRa)筛选(Perturb-seq),将其投影到有意义的扰动空间,并评估了不同预处理策略的影响。此外,展示了Pertpy 如何通过整合现有数据库的元数据,在一个大规模基因表达和药物反应筛选中将扰动响应解卷积为与存活率相关和与存活率无关的成分。最后,在一个三阴性乳腺癌(TNBC)研究中解析了成分变化并排序扰动效应。而以往,用户需要从分散的数据库中分别下载细胞系或扰动信息,同时从不同的、不兼容的生态系统中拼凑分析工具,现在则可以高效地分析具有整合生物学背景的复杂扰动数据集。
作者们提供了在线教程链接,其中包含超过 15 个额外的使用案例,展示了 Pertpy 在不同细胞系和扰动条件下的使用方法,从 CRISPR 筛选到炎症和 COVID-19 严重程度状态。Pertpy 作为一个可扩展、用户友好、开源的软件包,托管在 https://github.com/scverse/pertpy,并可通过 PyPI 安装。它提供全面的文档、教程和使用案例,可在 https://pertpy.readthedocs.io 获取。
参考文献
[1] Heumos L, Ji Y, May L, et al. Pertpy: an end-to-end framework for perturbation analysis. Nat Methods. Published online December 31, 2025. doi: https://doi.org/10.1038/s41592-025-02909-7
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-16 16:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社