本文讲一下在生物信息的学习中经常碰到的几个关于生物进化的基本概念。因为常涉及到系统发生学(Phylogenetics),也就是在地球历史发展过程中生物种系的发生和发展。
学习新的东西,搞清楚概念是最基本的第一步,不然理解起来,总是有偏差的。为了方便理解,配上来自维基百科的英文解释,更加准确些。
首先来讲一下什么是同源(Homology)的概念。
Homology: the existence of shared ancestry between a pair of structures, or genes, in different species.
如果两个或多个结构具有相同的祖先,也就是它们由一个共同的祖先演化而来,则称它们同源(Homology)。
在生物信息中,同源主要是指序列上的同源,也就是用来说明两个或多个蛋白质或DNA序列具有相同的祖先。同源关系的强弱可以帮助了解物种间的亲缘关系,是重构系统发生树的有力手段。而且,同源的序列一般有相似的功能。序列中同源的部分也被称为保守的(conserved)。
蛋白质和DNA的同源性常常通过它们序列的相似性(Sequence similarity)来判定,相似性一般用检测序列和目标序列之间序列一致性(Percent identity)来表示。
相似性(Sequence similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。一般来说,当相似程度高于50%时,常推测检测序列和目标序列可能是同源序列;当相似性程度低于20%时,就难以确定其是否具有同源性。
第二个需要搞清楚概念就是同源的两种基本类型,直系同源(orthology)和旁系同源(paralogy)。
同源现象可以分为直系同源(orthology)和旁系同源(paralogy)。
Orthologs(orthologous
genes) are genes in different species that originated by vertical
descent from a single gene of the last common ancestor.
直系同源(orthology)是指在不同物种中的某一基因來自同一祖先,在演化过程中因物种形成(speciation)而被区分开,也就是说,一个基因原先存在于某个物种,后来该物种分化成了两个物种,那么新形成的物种之间,或相应的基因关系,便是直系同源的关系。(见图中绿色大括号)
Paralogs(paralogous
genes)are created by a duplication event within the genome. For gene
duplication events, if a gene in an organism is duplicated to occupy two
different positions in the same genome, then the two copies are
paralogous.
旁系同源(paralogy)是指种系间的基因复制。若生物体中的某个基因被复制了,在演化过程中,存在于同一物种基因组中不同的两个位置,那么这两个副本序列之间的关系就是旁系同源的。
第三组概念就是趋同演化(Convergent evolution)和趋异演化(Divergent evolution)
需要注意的是,相似不一定同源。比如说,昆虫的翅膀、蝙蝠的翅膀和鸟类的翅膀是相似的,但却不同源。
Convergent evolution
: Convergent evolution creates analogous structures that have similar
form or function, but that were not present in the last common ancestor
of those groups.
Analogous: Functionally similar features arising through convergent evolution.
这些相似的结构可以由不同的渠道演化而来,这种演化过程叫做趋同演化(Convergent evolution)。这种由趋同演化得到的相似特征,被称为非同源相似或同形质(Analogous或Homoplasy)。
Divergent evolution:the accumulation of differences between groups which can lead to the formation of new species, usually a result of diffusion of the same species to different and isolated environments which blocks the gene flow among the distinct populations allowing differentiated fixation of characteristics through genetic drift and natural selection.
趋异演化(Divergent evolution):同一物种不同群体之间累积性差异导致新物种的形成,通常是同一物种扩散后,在不同隔离的环境下通过基因漂移和自然选择,基因分化固定后的结果。也就是,指两个或多个生物学特征具有共同演化起源,源自于同一物种,但在演化历程中因环境等自然选择压力的原因,逐渐分化的现象。
图片来自lesiuk-biology.wikispaces.com/
第四组概念就是蛋白质家族(Protein family)和蛋白质超家族(Protein superfamilies)。其实这个并没有明确的定义,简单来说,许多算法能够将蛋白质序列聚类为若干蛋白质家族,每族里的序列基本同源,其中某些蛋白质家族又可被归为一个蛋白质超家族。蛋白质家族常常是基因家族的同义词,因为基因编码相对应的蛋白。
Protein
family is a group of evolutionarily-related proteins. In many cases a
protein family has a corresponding gene family, in which each gene
encodes a corresponding protein with a 1:1 relationship. Proteins in a
family descend from a common ancestor and typically have similar
three-dimensional structures, functions, and significant sequence
similarity.
蛋白质家族(Protein family)是指一组进化上相关的蛋白,具有同源性(来自于相同祖先),相似的结构及功能,显著的序列相似性。
Families
are sometimes grouped together into larger clades called superfamilies
based on structural and mechanistic similarity, even if there is no
identifiable sequence homology
蛋白质超家族(protein superfamily),一些蛋白质家族被归入更大的进化分支,基于结构机制的相似性,尽管其没有可以确定(显著)的序列同源性。简单而言,就是蛋白质超家族包括了更多进化相关的蛋白,虽然没说有同源性,但因为其结构或功能基本相似,也被归为一个大类。而蛋白质家族的同源关系是可以确定的,也就是关系上更加严格些。
References:
https://zh.wikipedia.org/wiki/%E5%90%8C%E6%BA%90
https://en.wikipedia.org/wiki/Homology_%28biology%29
https://en.wikipedia.org/wiki/Protein_family
转载本文请联系原作者获取授权,同时请注明本文来自傅利飞科学网博客。
链接地址:https://blog.sciencenet.cn/blog-3027933-956147.html
转载本文请联系原作者获取授权,同时请注明本文来自杨志远科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3434047-1391787.html?mobile=1
收藏