博文

cspray：分布式单细胞转录组分析

已有 95 次阅读 2026-2-24 10:59 |个人分类:科普|系统分类:科普集锦

cspray：分布式单细胞转录组分析

基于微滴的单细胞 RNA 处理最初始于数万个细胞的样本。随着其他技术的不断进步，这一规模已稳步扩大，以最大化通量和引入多重检测。PIPseq等技术的应用进一步将这一规模推向百万细胞以上，Elz 等人在其最近关于商业单细胞 RNA 测序技术的综述中报告称，目前市面上已有高达 500 万个细胞的商业试剂盒。

像 Seurat和 Scanpy这样的工具对于分析这些数据非常有价值。然而，随着文件规模的增加，用于处理这些数据的机器所需 RAM 的压力迅速增长。此外，各个团队、组织和合作项目处理的绝对细胞数量持续增加。这本身就要求具备定期处理大量样本的能力。因此，通过任何处理流程高效处理细胞的重要性日益凸显。当同时处理许多样本时，会出现一个额外的挑战：单个文件的大小可能不同，如果不希望过度配置计算资源，就必须考虑这种差异。

针对这些挑战，已经出现了一些解决方案策略。目前最流行的两种方法是：使用 GPU 提高处理效率和使用分布式计算。最近，Hawkins等人的研究专注于分布式计算方法，特别是为了能够一次性读取任意大小的文件和数量的文件，并使用分布式方式端到端进行处理。

在设计用于可扩展单细胞转录组分析的 cspray 系统（图1）时，作者们既考虑了技术特性，也考虑了一些科学研究中常见面临的挑战。

图1 (左) cspray 数据存储布局的概述，称为 SprayData 对象。定义了多个 PySpark 数据框。‘X’具有三个维度，即细胞×基因×样本，但以长格式存储，每个轴有单独的列，表达量存储在另一列中。‘obs’和‘var’ 数据框分别存储细胞和基因信息，额外有一个样本维度和其他元数据字段。‘sta’存储高度可变基因计算中的基因统计信息。‘sam’存储每个样本的 QC 和元数据。‘clu’除了样本轴外，还存储一个聚类索引轴，用于存储每个样本中每个聚类的信息。(右) cspray 采用端到端的分布式处理。这包括数据摄取、预处理、高度可变基因注释、PCA 和聚类。将数据摄取为 COO 格式以实现高效检索，并且所有后续计算都在工作节点上进行，无论要摄取的数据总量如何，工作节点的 RAM 都可以较低

除了技术可扩展性挑战外，作者们确定了两个关键挑战：

1. 需要能够识别当前实验之外的样本，以进行大规模分析。为此，他们需要轻松访问简单的 QC 统计数据、聚类和细胞类型标记。

2. 根据需要偶尔访问原始文件进行深度临时分析，并且理想情况下应该能够在中期阶段轻松获取结果，即已完成基本质控，或 PCA 分析完成后。

关于第一个问题，可以考虑单细胞基础模型作为跨多个样本进行细胞类型标记的完美选择。确实，运行大规模基础模型推理具有内在的可扩展性。这些模型仍然通常需要用户准备输入数据，这可能导致大型数据集出现内存溢出问题。也就是说，相信可扩展的读取和处理框架可以成为在使用此类模型进行推理之前进行大规模数据准备的基础。

然而，本项工作关注的是收集高级细胞注释（例如 T 细胞、B 细胞），而不是使用单细胞基础模型，因为这些对于构建大规模标注数据集以进行数据发现已经非常有用。它们在集群级别计算效率也很高，并且可能对样本质量和处理参数选项的变化不太敏感。

因此，作者们寻求构建一个解决方案，以应对上述技术和科学挑战，特别关注：

a) 对来自原始文件的数据进行分布式处理，直至生成集群数据，这种处理方式即使在小型机器上也能实现扩展。

b) 数据在多个阶段写入高效的 Delta^TM表，包括原始数据以便高效地后续访问和操作。

c) 专注于低分辨率聚类，这种聚类方法能够进行扩展，并在集群层面与无需参考的细胞类型标记相结合。

参考文献

[1] Peter G Hawkins, Eli M Swanson, Megan Feichtel. cspray: Distributed Single Cell Transcriptome Analysis. bioRxiv 2026.02.06.704110; doi: https://doi.org/10.64898/2026.02.06.704110

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC