US-align:蛋白质、核酸和大分子复合物的通用结构比对工具
生物大分子(包括蛋白质、RNA和DNA)的结构比较和比对在结构生物学研究中具有重要意义。除了提供形状比较的直观可视化外,基于结构的蛋白质功能注释、突变效应建模、合理的蛋白质设计和蛋白质结构分类还需要结构比对。最近的应用还包括通过结构比对鉴定的模板用于结构域间结构组装和基于模板的蛋白质-RNA对接。
已经开发了不同的方法来比较不同类型的分子。例如,Dali和TM-align是通过最大化比对精度和覆盖率(比对残基的部分除以序列长度)来比对蛋白质单体结构的典型算法。类似地,RNA-align、RMalign、STAR3D和ARTS被设计用于对齐RNA和DNA分子,而MM-align被提出用于比较多链蛋白质复合物结构。最近,提出了诸如mTM-align、Matt和MUSTANG的算法来排列几种蛋白质结构。尽管它们很有用,但选择适合特定分子比对任务的算法可能会让生物学用户感到困惑。同时,对于不同的方法使用不同的评估矩阵使得不同分子类型的相互结构比较变得困难。
最广泛使用的结构比较矩阵是两个分子结构的均方根偏差(RMSD)。然而,它不适合于结构对准,因为最小化结构对准区域的RMSD通常导致低对准覆盖率。GDT和MaxSub后来被提出用于同时优化对准精度和覆盖范围。然而,GDT和MaxSub得分都与序列长度相关,因为随机结构配对的平均得分对序列长度具有幂律依赖性,这使得这些得分的绝对幅度没有意义。为了解决这些问题,通过引入长度相关量表来归一化残差距离。
Zhang等人开发了一个通用结构比对(US align)平台,该平台基于公认的评分和启发式结构比对算法,对单体和复杂的蛋白质和核酸结构进行三维(3D)结构比对。解决所有大分子结构比对的通用策略使异构复合物(如蛋白质-RNA复合物)的比对变得可行。同时,与为特定结构比对任务开发的最先进方法相比,对统一评分指标的广泛优化使该算法能够生成更快、更准确的比对。US align的源代码和在线服务器可在https://zhanggroup.org/US-align/(图1),它接受传统的蛋白质数据库(PDB)和mmCIF/PDBx格式,并自动识别和选择用于不同输入结构类型的优化算法。
图1 US-align工具主页
US-align是一种通用的结构比对程序,可执行四种不同的比对模式,每种模式都可以处理蛋白质、RNA和DNA的结构(图2):(1)单体结构比对模式建立了残基水平的对应关系在一对单体链之间具有最佳叠加(图2a);(2)寡聚物排列模式在一对寡聚物结构之间建立了链水平和残基水平的对应关系,每对寡聚体结构具有两个或多个链(图2b);(3)多结构比对(MSTA)模式从三个或更多个单体结构构建共有比对(图2c)和(4)基于模板的对接模式通过将两个或多个单独的链与低聚物模板匹配将它们组装在一起(图2d)。US-align的核心思想建立在涵盖不同初始姿态的多个启发式对齐的构建之上,以避免特定局部最小值的陷阱——这是许多结构对齐方法所遇到的问题。后续的快速动态编程迭代有助于提高对准过程的准确性和速度。
图2 US-align的四种不同结构对齐模式。a、成对单体结构排列。b、成对寡聚结构排列。c、MSTA。d、基于模板的单体链对接成寡聚结构。在该示意图中,不同的链通过不同的颜色和标记样式进行区分
Zhang等人开发了US-align,这是一种用于蛋白质、RNA和DNA分子的单体和寡聚结构比对的通用协议,建立在统一评分目标函数和启发式迭代搜索算法的耦合基础上。大规模基准测试表明,US-align在广泛的结构比较任务中,包括寡聚结构比对、RNA和蛋白质MSTA以及基于模板的蛋白质-RNA对接,在比对准确性和速度方面都优于最先进的程序。鉴于结构比较在分子生物学中的根本重要性,统一结构比对工具的高效率应大大促进不同类型生物分子的相关结构生物学和功能注释研究。
尽管效率很高,但US-align本质上是一种用于序列顺序相关刚性结构排列的工具,这可能不足以用于某些特定应用。例如,在虚拟筛选研究中,序列顺序独立比对通常是比较配体-受体相互作用结合口袋的首选。同时,可能需要灵活的结构排列来排列具有替代结构域间取向的多结构域结构,或者比较具有大构象变化的多链复合物。未来的发展将侧重于US-align的扩展,以实现序列顺序独立和灵活的比对。想使用US-align进行分子结构比对,可以点击链接https://zhanggroup.org/US-align/。除了US-align,该实验室还是大量其他实用工具。
参考文献
[1] Zhang C, Shine M, Pyle AM, Zhang Y. US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes. Nat Methods. 2022 Sep;19(9):1109-1115. doi: 10.1038/s41592-022-01585-1.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1390667.html?mobile=1
收藏