信息化的本质分享 http://blog.sciencenet.cn/u/Babituo

博文

学点生物信息学-1

已有 4907 次阅读 2011-9-7 17:05 |个人分类:基因软件开放实验室|系统分类:科研笔记| 信息学

研究基因软件的架构是一个仿生工程,既然是仿生,就应该学点生物信息学。
开始学习,记住,主要以仿生为目的,不以研究生物信息学为目的。
 
引言就说了:目前,我们对生命的奥秘还不甚了解,对生命信息的组织、传递和表达还知之甚少。既然这牵涉到信息的组织、传递和表达,我们就可以用信息科学的方法和技术来尝试认识和分析生命信息。
 
我不仅仅想要了解生命信息的组织、传递和表达机制,我还想了解生命信息中对生长控制和机能控制两方面的行为是如何控制实现的。
 
生物信息学广义的概念是指应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
 
是的,我需要学习的是广义的生物信息学。
我感兴趣的问题是:生物是的基因信息是如何表达未来生物机体的生长过程的,如何让生物在生长过程中,长出机体运行的功能出来的。生物是的基因使用的是一种怎样的表达机制和应用机制。
 
生物系统通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活动,促使生物体生长发育,产生生物进化。从信息学的角度来看,生物分子是生物信息的载体,生物信息学主要研究两种载体,即DNA分子和蛋白质分子。生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息。
 
是的,遗传信息、结构信息和进化信息是如何描述表达和应用的。是我最关注的。
 
遗传信息机理:
    DNA是遗传信息的载体。DNA的核苷酸序列上存储着蛋白质的氨基酸序列编码信息,存储着基因表达调控的信息,存储着遗传信息。遗传信息存储在DNA四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达。因此,可以说DNA序列包含着最基本的生命信息。存储在DNA中的信息使无活力的分子组织成有功能的活细胞,进而构成能进行新陈代谢、生长和繁殖的生物体。人们已经认识到遗传信息的载体主要是DNA[在少数情况下核糖核酸(RNA)也充当遗传信息的载体],控制生物体性状的基因是一系列DNA片段。一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息。另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。基因控制着蛋白质的合成,从基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的第一遗传密码。
 
 
遗传信息从DNA序列向蛋白质序列的传递是人类已经基本了解的第一部遗传密码,
然而蛋白质序列与蛋白质结构也存在着一定的对应关系,蛋白质序列决定蛋白质结构,因此有人将从蛋白质序列到蛋白质结构的关系称为第二部遗传密码。
 
第一部遗传密码已被破译,但是,对于密码究竟处于DNA序列的哪些区域还了解得不全面,对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少,对DNA遗传语言还有待于进一步探索。对于第二部密码,目前则只能用统计学的方法进行分析。无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。
 
与一般信息相比,生物分子信息具有明显的特征。首先,生物分子信息数据量大,例如DNA序列以千兆碱基(Giga base,Gb)为单位。随着信息处理技术进入现代生物学研究领域,随着互联网在全球的贯通,各种生物信息学数据库迅速发展,生物分子数据积累速度成倍增长。其次,生物分子信息复杂,既有生物分子序列的信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生命表象信息,如基因表达信息。生物分子信息另一个重要的特征是,生物分子信息之间存在着密切的联系,例如,基因序列与蛋白质序列之间的关系,生物分子序列与结构之间的关系,结构与功能之间的关系,基因变异与疾病之间的关系。
 
 
呵呵,我发展了一个新的应用:计算机软件仿生应用。
 
表1.1列出了目前已经得到的各类数据量及生物信息学对各类数据处理的基本任务。生物分子数据类型的不断增多及数据量的不断膨胀促进了生物信息学的研究与应用。生物信息学研究成果不断涌现,各种生物信息源如雨后春笋层出不穷,而各种生物信息分析算法和工具也日益更新。

数据源

数据量

生物信息学任务

DNA序列

3000万条序列

400.0 亿个碱基

分离编码与非编码区域

识别内含子与外显子

基因产物预测

基因功能注释

基因调控信息分析

蛋白质序列

100万条序列

序列比较

多重序列比对

识别保守的序列模式

进化分析

大分子结构

2.5 万个结构

二级结构、空间结构预测

三维结构比对

蛋白质几何学度量

表面和形态计算

分子间相互作用分析

分子模拟

基因组

1300个基因组

(其中大量是病毒和微生物基因组)

标注重复序列

基因结构分析

系统发生分析

基因与疾病的连锁分析

基因组比较

遗传语言分析

基因表达

海量

基因表达模式相关分析

基因调控网络分析

表达调控信息分析

   红色部分可能是和我的兴趣关联比较密切的部分。

 

 
人类基因组计划的具体任务可以概括为建立四张图谱,分别是遗传图谱、物理图谱、序列图谱和转录图谱。
 
遗传图谱genetic map)又称连锁图谱(linkage map):
它是以具有遗传多态性的遗传标记为“路标”,以遗传学距离为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。
遗传多态性: 在基因组的一个遗传位点上具有一个以上的等位基因,它在群体中的出现频率皆高于1%.
遗传学距离:在细胞减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM。
 
物理图谱(physical map)是指有关基因组中特异性序列排列和间距的信息。
建立物理图谱实际上是为全基因组测序建立“路标”,是基因组测序的前一步工作。
绘制物理图谱的目的是:把有关特异性序列的信息及其在每条染色体上的相对位置线性而系统地排列出来。
限制性酶切图谱是一种高分辨率的物理图谱,它显示的是各种限制酶切点的相对位置,
限制性酶切点是物理图谱中最主要的界标。
人类基因组计划中用的是基于序列标记位点STSsequence tagged site)的物理图谱,在这一图谱中,基因组的某些区段比其它区段绘制得更详细。
物理图谱中STS标记可以为寻找和分离目的基因以及DNA测序提供重要的基础。
物理图谱是以核苷酸的长度为单位绘制而成的。
完成遗传图谱和物理图谱是建立序列图谱的前提条件。
 
转录图谱(transcription map
是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
因为人类基因组中有许多不参与蛋白质编码的内含子,所以只有识别出其中的蛋白质编码序列,才能够做到基因识别(gene identification)。
基因识别包括识别基因组编码区或称“开放阅读框 open reading frameORF)”,和识别基因结构。
基因识别是HGP的重要内容之一,其目的是识别人类全部的基因,即基因组在生命活动中发生转录表达的DNA片段,并对其结构进行研究。
 
序列图谱
人类基因组全部DNA序列的测定是HGP的核心部分。
测序的完成依赖物理图谱上排序的DNA片段分子克隆,这些分子图谱通常是在较短的时间内由一个研究组从单一分离群体中获得的。为了充分利用所有的信息,要对全部标记进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完成。
DNA序列分析技术是一个包括制备DNA片段及碱基分析、DNA信息翻译的多阶段的过程。现在多采用凝胶电泳法进行测序,但由于每次测序的DNA片段长度仅为几百到一千个碱基(kilobabse,kb) ,故大片段DNA测序必须分解为一系列小片段进行。因此,利用定向和随机测序方法获得连续的小片段是大规模DNA测序的关键。随着自动化技术的迅猛发展,测序反应的许多步骤已实现自动化,例如应用自动测序仪可将凝胶电泳、初始信息收集、碱基阅读等步骤自动化。
测序过程的自动化具有手工测序不可比拟的可重复性和高效性,适用于人类基因组的大规模测序。
通过测序得到基因组的序列图谱。
 
20世纪中叶,特别是70年代,人类组织了攻克肿瘤的尝试,建立了“基因病”的概念,即不仅疾病与基因相关,而且所有药物都是通过基因起作用的,都是通过修饰基因的本身结构、改变基因的表达调控、影响基因产物的功能而起作用的。要认识疾病,就一定要认识致病基因。
 
 


http://wap.sciencenet.cn/blog-33982-483862.html

上一篇:如何与德高望重的前辈探讨问题而不伤和气
下一篇:学点生物信息学-2

3 许培扬 张俊鹏 理论思维

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-9-22 17:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部