||
TFBSpedia:人类和小鼠转录因子结合位点数据库
转录因子(TF)是能够结合特定 DNA 序列并作为基因表达激活器(或抑制器)的蛋白质。对于人类,已鉴定出约 1600 种 TF,而小鼠则拥有约 1200 种已知的此类蛋白质。通常,TF与其他蛋白质(如 RNA 聚合酶 II)合作,在启动子或增强子附近组装转录复合物。这些复合物随后会结合特定的 DNA 区域,这些区域被称为转录因子结合位点(TFBS),以介导转录激活或抑制。
单个转录因子结合位点(TFBS)通常跨越 8 到 20 个碱基对。对于某些基因组区域,如超级增强子,这些 TFBS 往往以高密度存在,相互重叠或紧密聚集,形成包含数百个碱基对的 TFBS 区域。鉴于大部分 TFBS 具有序列特异性和进化保守性,表观遗传 DNA 修饰(甲基化和羟基甲基化)以及遗传变异(SNP、INDEL 和 SV)都有可能改变转录因子与 TFBS 的结合亲和力。这些结合亲和力的变化可以改变转录程序,最终表现为表型变化,包括进化、发育障碍和复杂疾病。在肿瘤发生中的一个典型例子是转录因子 MYC;在这里,SNP rs6983267 改变了 MYC 增强子处 TCF4 的结合亲和力,触发了转录因子占据率的增加,从而驱动 MYC 过表达,进而促进肿瘤生长和免疫逃逸。除了单个位点,逆转录转座子介导的移动允许 TFBS 在整个基因组中传播,随着高通量测序技术的进步,绘制和预测全基因组范围内的转录因子结合位点(TFBS)的能力已大幅提升。ChIP-seq 及其衍生技术如 CUT&RUN 能够直接捕获与特定转录因子蛋白结合的 DNA 片段。这些 DNA 片段经过测序,随后通过峰值检测和统计方法确定 TFBS 的位置,这仍然是 TFBS 鉴定的金标准。受限于各种生物学环境和抗体设计的挑战,加之染色质可及性分析测序技术的出现,研究人员越来越多地采用 DNase-seq 和 ATAC-seq 的计算方法(足迹法)来同时预测多个转录因子在全基因组范围内的 TFBS。然而,足迹法预测存在一个局限性:不同转录因子共享重叠的结合位点,这使得难以明确预测特定转录因子的 TFBS。此外,为了总结不同条件下转录因子的结合偏好,创建了位置权重矩阵(PWM),通常被称为基序。基序存储了转录因子结合位点中每个位置上的核苷酸频率模式。 尽管这些基序被广泛采用,但它们基本上仅限于短的单体序列(6-20 bp),并且常常无法捕捉到转录因子-转录因子相互作用和蛋白质结合模式的组合复杂性。
得益于 ENCODE 和 Cistrome 等大规模项目系统地生成和/或组装 ChIP-seq、DNase-seq 和 ATAC-seq 数据,目前已开发出多个转录因子结合位点(TFBS)数据库。然而,尚未有研究系统地通过检查其出现频率、技术偏差和生物学意义来对数据库中的这些由基序推导出的 TFBS 进行基准测试。最近,Li等人通过开发最全面的 TFBS 数据库并评估每个预测 TFBS 区域的功能重要性来填补这一空白。为此,首先比较了不同算法检测到的 TFBS 区域,揭示了显著的算法偏差。开发了一个新的 TFBS 数据库,命名为 UM TFBS 数据库,并将其与四个先前发表的资源整合。所得数据库使用十种不同的基因组注释在区域和单核苷酸分辨率上进行了评估,表明跨多个数据库共享的 TFBS 更有可能代表真正的结合位点。最后,定义了两个分数(重要性和置信度分数)作为 TFBS 区域过滤的参考。为了最大化数据库的可用性,作者们开发了 TFBSpedia(图1,https://tfbspedia.dcmb.med.umich.edu/),一个能够高效搜索和下载 TFBS 区域信息的网络门户。

图1 UM TFBS数据库创建及跨数据库基准测试概述。(A) 工作流程示意图描述了用于生成UM TFBS数据库的数据来源和计算软件。(B) 比较UM TFBS与四个已发表的TFBS数据库(RegulomeDB、UniBind、Factorbook和ENCODE_footprint)的Upset图(主面板:hg38;右上面板:mm10),按测序技术组合着色
参考文献
[1] Shiting Li, Elysia Chou, Kai Wang, Alan P Boyle, Maureen A Sartor. TFBSpedia: a comprehensive human and mouse transcription factor binding sites database. bioRxiv 2026.03.04.709638; doi: https://doi.org/10.64898/2026.03.04.709638
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-29 15:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社