单细胞精度水平用统计推断揭示基因功能
我们的基因如何协同工作来构建我们的细胞、器官和身体,以及许多基因的突变如何导致疾病,这些都是遗传学的基本问题。尽管经过了一个多世纪的探索,我们对每种细胞类型的发育及其在体内的特定功能所需基因的了解仍然很少,我们对基因之间的调控关系的看法也是如此。尽管需要使用实验动物作为人类生物学的代表,但定义每种细胞类型的基本基因是一个令人望而生畏的前景。实验必须破坏动物体内的一个或多个基因,然后评估多种细胞类型的结果,以及在许多不同发育时间点基因表达的数千种潜在变化。
基于测序、成像或两者兼而有之的新兴测量技术为打开这一长期存在的遗传学瓶颈提供了一条途径。单细胞转录组测序可以对来自数千个独立样本的数百万个细胞进行。细胞分子状态的其他方面,如染色质可及性或DNA甲基化,可以在单细胞中大规模测量,通常与RNA一起测量。空间分子图谱技术正在迅速成熟,它能够在大范围内对整个转录组进行调查。单细胞测量技术的并行改进,基因组工程技术的效率、精度和吞吐量的提高,现在使我们能够在体内操纵基因和细胞。单细胞测序和CRISPR基因组编辑携手并进,作为揭示基因突变如何改变每种细胞类型中其他基因表达的手段。系统地搜索在分子、解剖或行为影响方面相互“表型”的基因,通常会揭示通过调节或生化相互作用共同起作用的基因。特别是在大规模扰动研究的背景下,发现具有相似表型的基因组的“guilt-by-association”分析已被证明对理解基因功能非常宝贵,揭示了整个生化复合物。总之,这些技术有望产生大量的数据,这些数据捕获了基因组规模实验的结果,在这些实验中,我们测量了我们的干预对整个动物的每种细胞类型的每个基因的影响。
然而,利用单细胞技术的全部力量来理解基因功能需要对几个反复出现的计算问题的核心的基本统计问题进行深思熟虑的关注。第一个问题是根据细胞对扰动的反应不同来分类和描述细胞类型。第二点在于辨别每种细胞类型如何调节基因,以及如何被基因调节。第三个是了解细胞类型如何在谱系中彼此递减或通过信号传导相互依赖。第四个问题是基因如何相互依赖和调节,以及这种控制在不同的细胞类型中是如何变化的。最后,第五个问题是如何整合这些知识,做出准确、定量的预测。例如,在未经测试的基因、药物或环境干扰下,疾病的小鼠模型会发生什么?当给一个特定的病人开了一种特定的药后会发生什么?尽管并非所有这些问题在本质上都是纯粹或主要的统计问题,但在将单细胞技术应用于这些问题时,对统计问题的关注是关键。类似的统计问题将出现在研究基因功能与其他测量工具从分子到解剖尺度。
一个制定良好的统计模型可以做到以下几点:权衡许多输入因素中的每一个的贡献;将定性表型转化为定量表型;解决产生数据的仪器的技术限制;或者将在不同尺度上进行的测量联系起来,以捕获甚至预测分子、细胞、组织和整个生物体的行为,包括在扰动和新环境或背景下的行为。良好的模型建立了对观察到的效应和表型是“真实的”的信心,可以帮助分离直接效应和间接效应,并且可以描述一个变量的变异如何传播到其他变量或使其他变量的变异复合,从而指导后续的实验设计决策并节省时间和实验室资源。
最近的一篇综述中,Trapnell重点介绍了统计概念、模型、工具和算法,这些概念、模型、工具和算法可以用来解决目前在发育和疾病的遗传和分子生物学研究中出现的或日益紧迫的问题。Trapnell概述了工作流程的表型与单细胞分子分析,包括差异细胞组成(图1)和基因表达分析。然后,Trapnell介绍了定量模拟基因调控的策略,以理解谱系关系和细胞-细胞信号相互作用,并推断基因调控网络。最后,Trapnell转向预测细胞命运的问题,简要地谈到了先进的人工智能系统在这类问题上的前景。本篇综述不详细讨论相关技术,以避免与最近关于单细胞测序,空间分子分析和基因组编辑的许多评论重叠。也避免了遗传学家已经非常熟悉的统计主题,如全基因组关联研究和表达数量性状位点分析。
图1 单细胞分辨率的回归分析分离出对病理生物学至关重要的细胞类型和基因。a一个假设的实验设计,有几个病例(有疾病的人)和对照(没有疾病的人)。从每个个体收集外周血单个核细胞并进行单细胞RNA测序(RNA-seq),鉴定出五种不同的细胞类型。b聚类和细胞类型注释揭示了不同年龄个体中主要细胞类型的比例差异。c一种细胞类型(活化T细胞)似乎在病例中比在对照组中更丰富,但是即使我们控制细胞类型比例的差异作为年龄的函数,这种差异在统计上是否显著?d线性回归可以模拟一个细胞类型相对于其他样本的比例。第一个模型将活化T细胞的比例描述为年龄和疾病状态的函数。在第二个模型中,疾病状态被排除在外。这些模型可以与似然比检验进行比较,以评估第一个模型在解释样本间比例变化的能力方面的改进是否足以证明其在参数方面的额外复杂性。绘制的线对应于备选模型的拟合。个体基因也可以在不同样本的细胞间进行变异测试。在接受药物治疗的患者中,细胞内的基因可能随着治疗时间的变化而变化,但个体之间的趋势可能不同,个体的反应可能不同。在差异表达分析中应考虑到这些供体特异性趋势。一种方法是使用一种混合模型,除了年龄和其他实验变量的固定效应外,还可以捕捉捐赠者特定的“随机效应”。(1 | patient)表示患者特定的随机效应
参考文献
[1] Trapnell C. Revealing gene function with statistical inference at single-cell resolution. Nat Rev Genet. 2024. doi:10.1038/s41576-024-00750-w
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1446632.html?mobile=1
收藏