||
在单细胞研究中,如何准确地将癌细胞从复杂的细胞群体中注释出来,是一个重大挑战。批量测序(Bulk RNA-seq)在面对高度异质性的肿瘤样本时,对此无能为力。解决问题的关键,往往在于癌细胞独特的基因组特征——拷贝数变异(CNV)。因此,单细胞CNV分析成为了鉴定癌细胞的一种决定性手段。它通过揭示单个细胞水平上大规模、跨染色体的基因拷贝数变化,为精准区分正常二倍体细胞和恶性非整倍体细胞提供了客观、可靠的依据,极大提高了细胞类型注释的准确性。
下面,我们就从三个板块深入聊聊单细胞测序中的 CNV 分析。
一、什么是单细胞测序中的 CNV
在单细胞测序分析中,CNV 指基因组中 DNA 片段的拷贝数异常,包括缺失、重复、扩增等,但这里的检测对象是单个细胞的基因组。单细胞 CNV 是细胞基因组不稳定性的直接体现。在正常细胞的分裂过程中,DNA 复制和染色体分离通常能保持高度精确,因此正常细胞的 CNV 较少且相对稳定。而癌细胞由于基因组稳定性被破坏,在增殖过程中会积累大量 CNV,这些异常的拷贝数变化可能导致原癌基因激活、抑癌基因失活,进而推动肿瘤的发生和发展。
单细胞测序技术能够捕获单个细胞的基因组信息,通过专门的生物信息学分析流程,我们可以绘制出每个细胞的 CNV 图谱,从而清晰地看到不同细胞之间的拷贝数差异,这为区分癌细胞和正常细胞、探究肿瘤异质性提供了关键依据。
二、单细胞 CNV 分析的常用方法
在单细胞测序分析中,有多种方法可用于 CNV 分析,其中inferCNV 是目前应用广泛的工具之一,此外还有 CopyKAT、CONICSmat 等方法。
1.inferCNV
inferCNV 是一款基于 R 语言的工具,其核心原理是通过将单细胞的基因表达数据与参考基因组的位置信息相结合,推断基因组各区域的拷贝数变化。
它的分析流程大致如下:
首先,需要确定参考细胞群(通常是正常细胞),并计算参考细胞群中每个基因的平均表达量;然后,将每个待分析单细胞的基因表达量与参考细胞群的平均表达量进行比较,得到表达量的比值;最后,根据基因在染色体上的位置,将这些比值沿染色体排列,通过平滑处理等步骤,生成每个单细胞的 CNV 图谱,从而直观地展示出拷贝数增加(表达量升高区域)或减少(表达量降低区域)的片段。
inferCNV 可以适用于绝大多数场景,但是对于CNV事件为非整倍数拷贝时,由于其算法的限制,inferCNV不能很好的将他们区分开来。
2.CopyKAT
CopyKAT 同样是用于单细胞 CNV 分析的工具,它可以从单细胞 RNA 测序数据中识别拷贝数变异,并对细胞进行分类(如癌细胞和正常细胞)。
与 inferCNV 相比,CopyKAT 将贝叶斯方法与层次聚类相结合,它将唯一分子标识符 (UMI) 计数的基因表达矩阵作为计算的输入,通过构建基因表达矩阵,利用潜伏变量模型来推断拷贝数状态,具有较高的准确性和灵敏度。同时,CopyKAT 还能对拷贝数变异区域进行聚类分析,帮助研究人员了解肿瘤细胞的亚克隆结构。
CopyKAT可以识别出inferCNV无法识别的非整倍体拷贝数事件。但是由于其读取的是整个基因组,没有参考细胞,因此不能用于检测其他有助于基因组多样性的基因组事件,包括染色体结构重排、插入、缺失和体细胞突变。这使得CopyKAT更适合于分析许多细胞已扩增并具有相似基因型的肿瘤中亚克隆,而不是分析复杂细胞或极为罕见的亚群。
三、如何通过 InferCNV 分析鉴定癌细胞
由于InferCNV普遍比其他算法更加常用,因此在这一段中,主要介绍如何通过InferCNV来鉴定癌细胞。
对照细胞的选择
通常会选择所研究样本中的对应疾病的正常细胞作为对照。正常细胞来自同一组织,与癌细胞具有相似的遗传背景,以其为对照可以准确地反映出癌细胞特有的 CNV 变化;但是有的时候,对应的正常细胞可能也处于增殖状态,或者是没有作为对照的正常细胞,这个时候会退而求其次,选择免疫细胞作为对照细胞。因为免疫细胞在肿瘤微环境中普遍存在,且其基因组相对稳定,也可作为可靠的对照,帮助凸显癌细胞的异常 CNV 特征。
基于 CNV 特征的区分
通过 inferCNV 等工具对单细胞数据进行分析后,我们可以得到每个细胞的 CNV 图谱。正常细胞的 CNV 图谱相对平缓,拷贝数变化较少;而癌细胞的 CNV 图谱则会出现明显的波动,存在大量拷贝数增加或减少的区域。我们可以以下图为例子:
上图是最常见的CNV热图,分为上下二层,其中上层是正常的参考细胞,下层是分析细胞。颜色越接近白色,说明基因表达(间接反映拷贝数)越接近正常二倍体;红色 / 蓝色代表拷贝数增加(红)或减少(蓝)。通过与上层的细胞作对比,颜色波动越大,则代表其为癌细胞的可能性越大。但是这张图有一个极为明显的缺点,由于横坐标为染色体,因此很难把这张热图与单细胞分析的其他分析联系起来。在这种情况下,我们会使用CNV打分图或小提琴图来判断肿瘤细胞的位置。
首先是CNV_score图,在这张图中,根据参考细胞,直观地为每一个细胞进行CNV的打分,是评判一个细胞是否是癌细胞的最直观的证据。而小提琴图,则可以诠释每一个细胞群的CNV分布,从而更好的判断癌变发生在哪一个细胞群中。
通过以上几张图,我们就可以对癌细胞作定位了。在做研究时,结合上图,我们有这样几种做法可以来决定哪些细胞是癌细胞。
简单粗暴法
顾名思义,根据小提琴图,把得分高的细胞群所在的亚群结合定义为癌细胞。这种方法会忽略癌细胞亚群中正常细胞带来的信号,在做下游分析比如细胞通讯时就有可能带来误判。
统计学方法
这种方法通过统计学的方式来划分CNV score的阈值,从而决定哪些细胞是癌细胞。由于inferCNV是根据参考细胞的表达谱给其他细胞进行打分的,因此除了参考细胞之外,其他细胞都会有一定的CNV值,因此并不是有CNV值的细胞都是癌细胞。所以一般通过CNV_score来决定哪些细胞是癌细胞的时候会为其划分一个阈值。而具体怎么划分阈值目前没有一种确定的做法,有取平均的,也有取中位数的,也有取平方平均数的,可以结合取完阈值后癌细胞在整个细胞群的分布,结合病理情况综合考量。通过这种方法,可以把大部分的癌细胞和正常细胞区分开来,尽管依然有一定的误差,但依旧可以减少误判,可以使得下游分析更加精准。
基因表达法
这种方法会通过癌症病理相关的基因的表达图谱结合CNV的得分来将癌细胞挑选出来。这种方法一般用于多处细胞亚群CNV得分偏高的情况,没有办法通过统计学的方法将他们区分开来。在这种情况下,通过标记一些高表达的原癌/促癌基因,一般是可以将癌细胞和其他CNV得分偏高的非病理相关细胞区分开来。
除了以上三种方法之外,也许还有其他能够帮助我们判断癌细胞的方法,欢迎大家在留言下补充哦。
相信大家通过阅读以上内容,对如何通过CNV来鉴定癌细胞已经有了一些了解。这种基于单细胞 CNV 分析的癌细胞鉴定方法,不仅能准确识别癌细胞,还能帮助我们发现肿瘤组织中 “隐藏的少量具有特定 CNV 特征的癌细胞亚群”,为肿瘤的精准诊断和治疗提供有力支持。
总之,单细胞测序中的 CNV 分析,为我们深入探究细胞基因组特征(尤其是肿瘤细胞特性)提供了强大工具。随着技术不断优化、方法持续创新,相信它会在肿瘤研究和临床应用中发挥越来越重要的作用。
微生信助力高分文章,用户320000+,文章7100+
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-9-7 03:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社