cliffgao的个人博客分享 http://blog.sciencenet.cn/u/cliffgao 兴趣:生物信息学、统计、概率

博文

笔记-2 打分函数 及 结构预测的评估

已有 4379 次阅读 2014-11-16 19:37 |个人分类:计算结构生物学|系统分类:科研笔记

第三章: 常见的打分函数:


接触数打分函数 contact socring functions.  形如 [A][A]. 如果是蛋白质序列, 是400维的二维矩阵.
距离打分函数 distance-dependent scoring function
[A][A][K][D]
目前使用最广的打分函数. A是比对的对象. K是代表相互作用的矩阵. D为分值的范围.
通常这些矩阵式不对称的.这要求两个物体的次序需要一定.
接触面积打分函数 accessible surface scoring function. 通常含有一个残基的溶剂可及描述或者原子的溶剂可及性描述.  可达面积表示在给定的阈值下,另一个物体在指定残基或者原子周围的数目.
合并的打分函数 combined scoring functions.  使用合并的打分函数时,注意数据需哟啊标准化一下.
如何得到这些打分函数:
通常来讲,是从 逆Boltzmann 准则得到的( inverse Boltzmann law)
参考系统:
展望;
1.原子的参考系统:
为了减小参考系统的误差, 1. 只从有效原子的相互作用上推出打分函数.2. 使得不同果原子对的互信息减少.
2. solvation model: 建议使用一个 explicit-implicit model
3.使用进化信息的打分函数,会显著改进原模型.
4. multivariate scroing function


第四章: Assessment of protein structure prediction


常见的数据库  ModBase  SwissModel PMDB

造成错误的原因:
1. 模板选择.
2. 错误的比对.
3. 没有模板 Template-free modeling.目标序列在模板中没有对应的结构.
4. Rigid body Shifts. 同源序列在结构上有多态性.
5. side chain packing. 侧链的组装.
评估模型的方法:
1. physics-based energies:
力场函数经常有两部分主要组成: 分子间的化学键能, 分子间的非化学键能如静电,范德华力等. 常见的软件有 CHARMM, OLPS(Optimized Potential for Liquid Simulations), MM-PBSA(Mechanics-Possion Boltzmann Solvent Accessible Surface Area). OPEP(Optimized potential for efficient structure prediction).
缺点: 全局通用的能量函数仍需改进.
2 Knowledge-based Potential
前提假设: (1) protein folding 可以用自由能函数来描述 (2) conformation 可以用两个刚体的交互作用来近似 (3) 出现频率越多的的构型, 应该对应自由能最小的结构.
常见的方法: PROSA, RAPDF(Residue specific all-atom probaliblity discriminatory ratio) DFIRE, DOPE 等等.
展望: 如果使用不同的参考状态, 和多个结构代表 (The use of different  reference states together with multi-body representations of protein structures may finally meet the needed accuracy for large-scale protein structure assessment.).
3. combined Scoding functions
需要优化每一个单独分数的权重和每个参数.常见的算法有ProQ (神经网络), SVMod(支持向量机方法), QMEAN输出的分数的线性组合.
4. Clustering Approaches
此类方法有:self-RAPDF等,此类方法的缺点: 最后的结构以来打分函数的质量.另外,不能够对模型自身的质量评估( Clustering approaches is their inability to assess the quality of a method on its own).
展望:
目前的三个困难:(1)按照天然结构来优化蛋白质的结构(2)预测模型的绝对准确性(3) 识别模型中含有错误的区域或者残基.
需要越来越可靠的结合物理和经验的打分函数.
1.Solvation 溶解性, 目前还没有一个模型来描述水分子(溶剂)对蛋白质结构的影响.
2.Topological determinants. 拓扑决定性. 需要考虑蛋白质拓扑性质.
3.side-chain pakcing. 需要高分辨率的结构.这些细节可以用来评估protein-protein, protein-ligand的相互作用.
4. Protein structure flexibility and disorder. 现在模型还没有考虑柔性和disorder
5.small multi-domain, and non-globular proteins. 目前方法都来评估球蛋白的单个域(single domain globular protein model). 没有用来评估 small, multi-domai 的蛋白.
6.Detailed knowledge-based potential.


https://wap.sciencenet.cn/blog-468005-843892.html

上一篇:笔记-1 protein fold recognition and Threading
下一篇:笔记-3 biology application of protein model
收藏 IP: 132.234.251.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 19:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部