信息化的本质分享 http://blog.sciencenet.cn/u/Babituo

博文

学点生物信息学-3

已有 4063 次阅读 2011-9-20 09:24 |个人分类:基因软件开放实验室|系统分类:科研笔记| DNA

这个图描述了5个基因信息处理的步骤。
图片看不太清,加上我英语不够强,问下帅哥,5个步骤是什么呢?
 
 
 
这个图似乎和帅哥给的数据库结构有关系了。
 

对基因表达数据,在大规模数据集上进行分析、归纳,可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解遗传网络,提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向。

目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能,分析基因的转录调控。所用方法主要有相关分析方法、模式识别技术中的聚类方法和分类方法、人工智能中的自组织映射神经网络。此外,还有主元分析方法,利用主元分析可以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特征。进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明一些基因对另一些基因的调节作用。利用聚类分析的结果可以研究基因的转录调控信息,分析表达模式相同的一类基因的转录启动区域的组成特性,通过多重序列比对操作,在各个基因序列的上游区域寻找共同的转录因子结合位点。虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。

最近,国际上在基因调控网络分析方面出现了许多有意义的工作,并已建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等。在此基础上,进一步研究基因调控网络的动力学性质。

学到这,让我想起我曾经做过的文本信息处理中的分词,然后进行连接关系分析,找“同义词”的试验程序。基因序列是大自然的天然语言,对基因序列的逐层分析,实际就是一个语言分析的实例,语义网的应用应该也是适应的。

在分析处理蛋白质序列时将面对一个问题,即根据蛋白质序列预测蛋白质结构,也就是第二遗传密码的问题。这是一个更为复杂的问题,因为蛋白质序列和蛋白质空间结构之间的关系比DNA序列与蛋白质序列之间的关系复杂得多。

在空间结构预测方面,比较成功的理论方法是同源模型法。该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构。这样,如果一个未知结构的蛋白质序列与另一个已知结构的蛋白质序列足够相似,那么就可以根据后者为前者建立近似的三维结构模型。运用同源模型方法可以完成所有蛋白质10%-30%的空间结构预测工作。得到蛋白质结构以后,就可以进一步分析研究蛋白质的生物功能。

 

 

记得王德奎老师在他的《三旋理论初探》里面,也根据三旋理论的假设,探讨了蛋白质的结构问题,现在对这个问题有了一定的认识了,回头再看三旋理论的解释就应该能理解更多的内容了。

从感性认识上说,蛋白质的结构规律肯定有理论推导的可能性,三旋的空间耦合能力是基于几何拓扑最基本形态来假设的,必定具有一定的说服力和解释力。三旋自组织原理如何应用到蛋白质的结构-功能的解释上,看来也是有趣的问题。

在生物信息学领域中,许多分析工作如分析DNA语言中的语义、分析密码子使用频率、识别基因等,都要用到数学统计方法。其中,隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),对于生物分子序列分析,马尔科夫链是一个很好的数学统计模型,因为马尔科夫链本身就是相继发生事件的序列,其特征是对于事件序列中的任何一个事件都有一个发生概率,而这个概率依赖于该事件之前的若干个事件。

 

果然,DNA分析中用到了语义分析,又学到了马尔科夫链的意思了——其特征是:对于事件序列中的任何一个事件都有一个发生概率,而这个概率依赖于该事件之前的若干个事件。马尔科夫链是不是就是可以实现这样的搜索,找出相关事件的链呢?这正是我在事脉管理系统设计中所需要的功能啊!

慢着,“基因软件”、“事脉管理”、“设计演进”、“三旋自组织”、“结构复杂度”、“信息本质”...,好象这些概念之间存在着某种联系,如何把它们纳入到一个统一的语境中来,是最有趣的问题了。

开了个小差,查了一下“马尔科夫链”的相关信息,知道是和状态空间概念的关系了,联想到电脑围棋中的UCT方法(概率置信树)方法,其实就是一个类似的基于门特卡罗方法的马尔科夫链搜索方法。好神奇,以前不知所然的以人名命名的方法,其实本身并不难理解和表述。

 



https://wap.sciencenet.cn/blog-33982-488297.html

上一篇:四年前的畅想:基因软件
下一篇:姜老师的动态计算机的思想和动态工作流思想类似
收藏 IP: 112.91.148.*| 热度|

2 许培扬 洪昆辉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-30 18:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部