张俊鹏
scMalignantFinder:利用癌症标签在单细胞和空间转录组学中区分恶性细胞
2025-4-23 10:09
阅读:299

scMalignantFinder:利用癌症标签在单细胞和空间转录组学中区分恶性细胞 

肿瘤是高度异质性的疾病,由肿瘤细胞内遗传、表观遗传和基因表达水平的分子紊乱驱动。准确表征肿瘤异质性对于理解癌症发展的机制和制定有效和持久的治疗策略至关重要。单细胞RNA测序(scRNA-seq)技术通过能够测量肿瘤组织内每个细胞的完整转录组,从而有助于识别不同的细胞类型和状态,从而彻底改变了癌症生物学领域。 

识别恶性细胞并将其与其他非恶性细胞区分开来,是从癌症scRNA-seq实验中剖析肿瘤异质性的关键一步。这一过程有助于深入了解癌症发展过程中细胞恶性转化的转录重编程。拷贝数变异(CNV)推断方法通常用于识别恶性细胞,其可靠性在很大程度上取决于观察到的基因表达偏差与潜在拷贝数变化的相关性,而不是其他生物和技术因素。此外,CNV推断通常需要指定适当的正常参考细胞,阻碍了分析过程的完全自动化。因此,仅依赖推断的CNV在注释恶性细胞方面存在局限性,特别是在基因组结构变异最小或其他未知来源的癌症中。对于前者,一种潜在的替代方法是通过较小规模的遗传改变(如单核苷酸变异(SNV))来识别恶性细胞。然而,从scRNA-seq数据中检测SNV需要对表达的外显子进行足够的读取覆盖,这使得它主要适用于捕获全长而不是3'5'转录的scRNA-seq协议。 

鉴于这些局限性,最近的进展引入了通过监督学习识别恶性细胞的自动化方法,利用原始研究提供的具有细胞身份的训练数据。然而,这些监督学习方法的性能将因缺乏准确注释每个细胞恶性状态的最佳参考数据集而受到极大影响。此外,目前的方法通常选择在数据集中一致表现出差异表达的基因作为模型特征,这可能会忽视肿瘤间的异质性。因此,迫切需要在高质量数据和成熟知识的指导下,结合准确标记的数据集和强大的特征选择策略,从癌症scRNA-seq数据中有效识别异质恶性细胞的专门方法。 

最近,Yu等人引入了scMalignantFinder(图1),这是一种基于机器学习的自动分类器,专门设计用于区分恶性细胞与其起源的正常细胞,而不是像现有方法那样区分所有其他非恶性细胞。作者们系统地回顾了多个带有细胞类型注释的scRNA-seq数据集,并使用九个精心策划的癌症基因标记校准了最初注释的恶性细胞,这些标记在不同的癌症类型中表现出一致的转录模式,以构建金标准训练集。采用跨数据集校准的恶性细胞和正常细胞之间的差异表达基因(DEG)的联合集来构建分类模型。与当前自动化方法相比,scMalignantFinder在癌症细胞系、非癌症组织和涵盖9种癌症类型的11个癌症单细胞数据集的独立测试集上表现出优异的性能。scMalignantFinder预测恶性概率的能力使其能够捕捉肿瘤进展过程中的动态特征。此外,作者们扩展了分类器以发现空间转录组学(ST)数据中的恶性斑点,而无需再训练,实现了与病理学家在多个癌症ST切片上的注释的高度一致性。这些发现强调:scMalignantFinder是癌症研究中研究恶性细胞生物学的一种通用和可推广的工具。 

image.png

1 scMalignantFinder工作流程。scMalignantFinder通过两个步骤识别恶性细胞:(1)通过使用来自四种癌症类型的400,000多个上皮细胞的九个精心策划的癌症基因标签校准恶性细胞来构建训练集,以及(2)通过在数据集上进行差异表达基因(DEG)的联合来进行特征选择,该联合捕获了常见的DEG和特定数据集特有的DEG。这些改进的步骤为构建逻辑回归模型奠定了基础,该模型根据单细胞RNA-seqscRNA-seq)数据将细胞分类为恶性或正常 

参考文献

[1] Yu Q, Li YY, Chen Y. scMalignantFinder distinguishes malignant cells in single-cell and spatial transcriptomics by leveraging cancer signatures. Commun Biol. 2025 Mar 27;8(1):504. doi: 10.1038/s42003-025-07942-y.  

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1483050.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?