||
跨人类细胞TF驱动基因程序图谱
单细胞技术和资源(例如人类细胞图谱(HCA))的最新兴起允许从多种不同的细胞类型和条件中记录基因表达和染色质可及性。现在,利用这些庞大的资源打开了在单细胞分辨率下大规模表征细胞类型的基因调控网络的可能性。这可以通过将计算方法与已知的分子相互作用偏好相结合来实现。
转录因子通过基因调控网络管理转录变化来确定细胞状态,在确定细胞状态中起着核心作用。它们与特定位点结合,通常在启动子或增强子中调控其靶基因的表达。迄今为止已经确定了1600多个人类TF,并根据其DNA结合基序分组为不同的家庭。
转录因子的活性对于确定细胞命运并分化为不同的细胞类型至关重要。 Yamanaka因子可以将细胞重新编程为多能干细胞,例如,三个TF的组合被证明可将成纤维细胞在体外转化为功能性神经元。体内TF中的突变与各种单基因疾病有关,例如HOX基因中功能突变的丧失,导致发育疾病。TF在细胞功能调节中的作用已经在各种组织中进行了研究,并且需要多种转录因子的协调活性才能分化成许多细胞类型。
将TF连接到其靶基因需要识别TF结合位点的位置,并将这些位置与靶基因相匹配。传统上,转录因子靶点是通过ChIP-seq实验确定的,该实验确定了整个基因组中单个TF的结合位点。但是,这种方法不容易扩展到大量的TF,尤其是细胞类型的特定芯片测序数据仅适用于有限数量的主细胞类型。另一方面,可以在高吞吐量中在体外询问TFS的DNA结合特异性,例如使用SELEX或PBM协议。TF靶标预测的计算方法通常利用TF及其调控靶标的共表达。但是,共表达并不总是反映因果关系。因此,诸如Scenic之类的方法将共表达与DNA结合基序的存在结合在一起,以预测TFS的靶基因,从而提高精度。由于TF经常通过表观遗传效应和与其他因素的相互作用以特定于细胞类型的方式作用,因此细胞类型的特定数据对于划定TF靶基因调控的计算方法至关重要,并且越来越多地以单细胞的形式获得。
最近,Pett等人识别了由细胞类型和组织水平的TF靶基因或调控子,这些基因从大量的单细胞数据集中汇编而成,其中包括500万个覆盖15个器官系统的细胞。这个全面的基因调控程序单细胞图谱CellRegulon(图1,https://www.cellregulondb.org/)包括超过700,000个调控子,提供了TF依赖性转录状态的详细信息。CellRegulon允许探索跨细胞类型和状态的TF活性,捕获已知的细胞状态过渡,可用于预测bulk转录组数据的细胞类型特异性TF活性,进而洞悉疾病。
图1 调控子图谱概述。(a)涵盖14个器官系统的概述。研究包括大型单细胞图谱,整合了跨组织和组织。总共处理了超过500万个细胞,以推断550种细胞类型和60个组织的调节。 右:TFS形成一个密集连接的网络,可以在细胞类型的基础上进一步探索。(b)直方图显示每种细胞类型的TF数量。大多数TF是针对少数细胞类型特异性,而无处不在的TFS则是跨细胞类型和组织的大多数具有不同靶基因的调节值。如果TF分别在<5或> 500个细胞类型中发现,则将其定义为特定或普遍存在。(c)靶基因数量与每个TF的细胞类型数量之间的关系。无处不在的TF倾向于靶向跨细胞类型的大量基因。(d)每个细胞室显示的每个调控基因数量。在整个隔室中,大多数调控子均以低于20的基因为靶标,而有些则靶向数百个基因。(e)通过共享TF的相似性。带有细胞类型的UMAP作为点和JACCARD系数作为共同TF的相似性度量。来自同一隔间的细胞类型通常共享TFS。(f)共享细胞类型的转录因子相似性。用TFS作为点和JACCARD系数的UMAP作为共同细胞类型的相似性度量。顶部和右:对于非普遍的TF,基于多数投票的细胞类型和隔室。一些类似TF组与相同的细胞室相关,而另一些则是混合的。左:一些TF组还显示了TF类富集,尽管比细胞类型更广泛。(g)特定的TF聚类。显示了顶部特异性的TF,由共享靶基因聚集。它们形成属于同一细胞类型隔室的组,而较少使用相同的TF类。(h)无处不在的TF聚类。顶部无处不在的TF被共享靶基因聚集,并注释了调控基因的功能。它们调控广泛的功能,例如细胞周期、细胞信号传导和细胞骨架相关
此外,通过整合来自成年肺的新生成的多组学数据,作者们证明了CellRegulon可以扩展到增强子基因调节网络(EGRN),以改善与复杂肺部疾病(包括哮喘、COPD和IPF)的复杂肺部疾病的遗传风险基因座的细胞类型关联。CellRegulon可通过网页(https://www.cellregulondb.org/)和专用Python软件包(https://github.com/Teichlab/cellregulondb)获得。
参考文献
[1]J. Patrick Pett, Martin Prete, Duy Pham, Nick England, Hao Yuan, Elena Prigmore, Liz Tuck, Agnes Oszlanczi, Ken To, Chuan Xu, Chenqu Suo, Emma Dann, Peng He, Veronika Kedlian, Kazumasa Kanemaru, James Cranley, Ling Yang, Rasa Elmentaite, Amanda J. Oliver, Ana-Maria Cujba, Batuhan Cakir, Simon Murray, Krishnaa T. Mahbubani, Kourosh Saeb-Parsy, Laure Gambardella, Maria Kasper, Muzlifah Haniffa, Martijn C. Nawijn, Sarah A. Teichmann, Kerstin B. Meyer. An atlas of TF driven gene programs across human cells bioRxiv 2025.05.30.657075; doi: https://doi.org/10.1101/2025.05.30.657075
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-6-24 03:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社