博文

进化论”进化“到什么地步了？

已有 4399 次阅读 2018-8-21 07:00 |系统分类:科普集锦| 生物信息, 进化论, 种群模型, 系统发生树, 生物数学

在古往今来的所有生物学理论中，达尔文的“进化论”可能是最有名、影响最大的一个了。在达尔文的眼中，所有的物种的发展都必须遵循自然选择，并且所有物种都具有共同的祖先。在提出自然选择学说之前，达尔文走访了拉丁美洲的诸多地区，在《物种起源》一书

著名的达尔文雀。从外观上不难猜出这些雀类很可能有相同祖先，但要提出“人类也和雀类也有相同祖先”这一结论，不仅需要惊人的洞察力，还需要惊人的勇气

正所谓枪打出头鸟，一个如此有影响力的学说自然也会受到不少人的反对，时至今日，依然有许多人在质疑进化论的正确性。毕竟涉及到伦理问题，有争论倒也正常。

事实上，进化论是由 “Theory of Evolution” 翻译而来，更准确地翻译应该叫作演化论。除此之外，达尔文进入晚年后也没打算坚守自己的观点，他举出过一些反例来反对年轻时提出的学说，例如进化论无法解释眼睛等器官是怎么被自然“选择”出来的。

达尔文在晚年很客观地指出了演化论的不足之处

直到一百年后的今天，我们所熟知的演化论本身已经不仅是达尔文的一家之言了。例如孟德尔提出的遗传学定律（达尔文亲自承认他对这套理论一无所知）也被后来的演化论学家们收入囊中。20世纪以后，经过卡尔･皮尔逊、罗纳德･费希尔（关于费希尔的介绍，可参考笔者的《罗纳德・费希尔——或许是最被低估的科学家》一文）和约翰･史密斯等英国科学家的发展，演化论逐渐受到数学家和统计学家们的重视，并成为应用数学中中的重要研究对象。

那么今天的演化论是什么样子呢？下面笔者带领读者们看看现代演化生物学（Evolutionary Biology）中一些有代表的理论。

一、出发点——形形色色的单种群模型

演化论是一个非常大的框架。为了研究一个物种到底是如何演化的，第一步就是要弄清楚该物种的种群数量变化规律。为简单起见，我们先来考虑一个物种的种群数量变化。

最简单的一个种群增长模型则是只考虑了生育率和死亡率的模型，可以用微分方程（如果考虑连续时间）或差分方程（如果考虑离散时间）来描述：

就算不懂微分或差分方程也不难猜出，如果出生率大于死亡率，这个种群会不断兴旺繁衍，否则就会有灭顶之灾。事实上，上述微分方程的解是 N(t) = C*exp[(b-d)t]，可见该物种是兴是衰全由 (b-d) 的正负性所确定，正好验证前面的猜想。正是这个原因，这个模型又被称作指数增长模型（Exponential growth model）。

但这个简单的模型显然还远远满足不了实际需求——要知道，一个物种不可能无限繁衍下去，否则过不了多久地球就装不下了，灭霸要毁灭一半生命的野心只怕会实现。因此我们亟需一个更切合实际的模型——逻辑增长模型（Logistic growth model，暂时忽略死亡率），它用微分方程表示如下：

其中 r 是繁衍速度，K 是种群的最大数量。例如当K等于 1 时，在不同繁衍速度下种群数量变化如下：

横轴表示时间，纵轴表示种群数量，模拟环境为 matlab

可见不管繁衍速度为多大，种群数量最终总会趋近 K 值，却不会超过它。一旦不小心超过了，也必然会回到 K 值附近。

不过逻辑增长模型也不一定反应出真实情况。例如美国生态学家阿利（Warder Clyde Allee）在研究金鱼的繁殖过程中发现，种群的聚居有利于物种繁衍，若种群密度过于稀少的话那么该物种很可能灭绝 [1,2]。这个规律被后人称为阿利效应（Allee effect），它依然可用一个微分方程表示出来：

此处 A 是一个待定参数，而 N 表示物种密度而不仅仅是种群总数了。因此从数学观点看来，阿利效应无非就是在逻辑增长模型后面多乘上一项。我们来看看当一个物种拥有不同初始数量时，它们的变化规律：

和逻辑增长模型不同，在阿利效应的作用下，低密度（N(0) < A）的物种将走向灭绝。这就是为什么在保护珍惜动物时，建立自然保护区总是比放生或散放在各地动物园中更为有效。

二、博弈论的引入——有竞争才够味

上一节中我们讨论的是单种群的情况。然而生态圈是非常多元化的，不可能任由一个物种为所欲为——一方面，在食物链的作用下，捕食者群体（Predator）和猎物群体（Prey）的繁衍状况会有差异，却又有相关性；另一方面，捕食者群体和猎物群体之间又会形成竞争。例如在只有一种捕食者和一种猎物的情况下，可以用著名的 Lotka–Volterra 模型来描述：

这是比较一般的 Lotka–Volterra 模型，不是最简单形式

这个模型很受数学家们的欢迎，因为如果参数取得好，可以出现极限环（Limit cycle）。直白地讲，极限环描述出了捕食者和猎物的数量之间存在的动态平衡，或者周期性此消彼长。所以不要因为大灰狼在童话中的形象太差就去过度猎杀它们，猎物数量会限制它们的增长。

极限环，图片来自文献 [1]。关于 Lotka–Volterra 模型的另一个应用，可参考《数学模型教你如何成为星际争霸高手·上》一文。

引入竞争和与环境的相互作用机制以后，演化论学家们自然就提出了一个新的问题——物种要采取怎样的策略，才能：1.存活下来；2.活得有滋有味，走上人生巅峰？这就需要使用博弈论作为武器了。

小插曲：
博弈论是由英文“Game theory”翻译过来的。笔者刚接触这个单词的时候颇为兴奋，心想总算有机会把自己在《星际争霸》《极品飞车》中练就的一手技巧运用到学习中来了。然而经深入理解以后，才知道 “Game theory” 中的 “game” 实际上完全是由 “gamble” （赌博）这个单词演化而来的，所以实际上英语国家的人对 “game” 的理解和我们对“游戏”的理解存在着一定差异。

博弈论创始于冯･诺伊曼之手，被约翰･纳什（电影《美丽心灵》的主角）发扬光大，并由进化生物学家约翰･史密斯（John Maynard Smith）首次引入演化生物学领域。约翰･史密斯首次定义了稳定演化策略（Evolutionary stable strategy, ESS）这一概念，作为纳什均衡理论在演化学中的相似物。

史密斯考虑了一个简单的例子。假设有老鹰和鸽子两个物种，它们要争夺同一种资源。我们知道，老鹰是猛禽，生性好斗，见谁都会斗上一斗；而鸽子则生性温和，打不过就跑，就算遇上势均力敌的对手，也更愿意平分资源，避免内斗。

根据上面的假设，我们可以对老鹰的“好斗政策”和鸽子的“和谐政策”绘制一张得失表（payoff matrix）：

在博弈论中，人们习惯把每个个体的得失排列成一张表

所谓一个生态系统的稳定演化策略，就是如何确定老鹰和鸽子（也就是“好斗政策”和“和谐政策”）的分布比例，才能使整个自然系统达到平衡态。由小学数学可以得知，当老鹰比例为 V / C ，鸽子为 (1 - V / C) 时系统达到平衡态；进一步由大一数学知识（平衡点矩阵特征根都小于0）可知，这个策略分布是稳定的，也就是说，当策略的比例分配失调后，自然选择会让整个生态系统重新回到上面的比例。所谓“存在即合理”，无论是好斗也好和谐也好都有自己的合理性，大自然并不会偏袒其中任何一种 [3]。

有博弈论背景的读者也许有所体会——寻找一个生态系统的稳定演化策略，就和寻找一个纳什均衡点（博弈中的各方都相对稳定的一个状态）很像。不过事实上，两者存在一些微妙的区别。在纳什理论的框架下，一个纳什均衡点只是一个系统的平衡态；然而在演化过程中，这个状态还应该能够代代相传（具有对时间的稳定性），是一个动态的过程，因此稳定演化策略比纳什均衡点要求更加严格。

三、与遗传学双剑合璧

其实达尔文在提出演化论之前，法国生物学家拉马克就已经提出过“用进废退理论”和“获得性遗传”理论来解释器官的形成和长颈鹿脖子为什么那么长等现象。这套理论也一度拥有很大的影响力，直到孟德尔的豌豆杂交实验名扬天下之后，演化生物学家们才发现，拉马克理论经不起孟德尔遗传学的考验，而达尔文的理论和孟德尔的结果并不矛盾。

虽然是植物学家出身，孟德尔最伟大的成就在于，敢于直接通过豌豆植株的宏观性状和简单的统计学知识就猜测某种“看不见的基因”才是遗传信息的载体，并且首次猜出了“基因”的基本结构（等位基因、隐性显性基因）等。今天我们已经知道，基因本质上就是DNA或RNA片段，但在孟德尔的年代，能猜出这一点实在难能可贵。

孟德尔的实验和分析结果，图片来自网络。

值得一提的是，遗传学的创立直接促使了现代数理统计学的产生，因为在上面的贴图中，第二子代基因型的比例并不是精确的 1:2:1，而是带有一定随机性，现代统计学的一大核心任务就是研究如何从随机的数据中得出确定性的结果。另一方面，遗传学的创立使得人们得以通过统计学的手段来研究进化论。例如哈代—温伯格定律：

定律（Hardy-Weinberg）：
考虑物种中的一对等位基因 A 和 a，A 的出现频率为 p ，a 的出现频率为 q，那么在“理想条件”下，该物种后代的 A 和 a 基因频率将保持不变。

实际上这个定律的提出者之一哈代是20世纪初闻名全球的大数学家（现代分析学派的大师，华罗庚的研究生导师）。不过这个定律的数学背景却非常简单，无非就是 (p+q)^2 = p^2 + 2pq + q^2。这个定律的真正不平凡之处在于其深刻的生物学含义，因为它告诉我们，理想条件下的任何物种后代基因型频率都是不变的，因此生命的繁衍具有很强的稳定性。

此时肯定有读者会对上面的模型产生质疑——如果世世代代都一成不变的话，那生态圈哪来的多样性啊？其中根本原因就在于上述模型中极为苛刻的理想条件，例如它假设物种个体数无穷大、个体间的配对完全随机（癞蛤蟆有不小的机会吃到天鹅肉）、等位基因和性别无关、物种不迁徙、忽略基因突变和自然选择等等。

比哈代-温伯格模型更符合实际的叫做基因漂移理论（Genetic drift）。在基因漂移理论的假设中，除了物种个体总数有限以外，其他假设和哈代-温伯格模型一模一样，但可以产生和哈代-温伯格定律全然不同的结论。

为了让读者更好地理解基因漂移理论的内涵，笔者进行一个简单的模拟。假设某个物种个体数为 100，考察两个不同等位基因 A 和 B，假设这两个基因的初始频率都为0.5，该物种繁衍 300 代以后，基因 A 和 B 的频率变化如下：

从随机过程的框架下，只要时间足够长，基因 A 或 B 中必有一个会消失（有兴趣证明这一结论的读者可回顾一下布朗运动的特性）。因此基因漂移理论从概率论的角度出发，给出了基因为什么会消失的一种解释。不过由大数定律可知，当物种个体总数趋向于无穷时，初始基因的频率依然会保留下来，因此哈代-温伯格模型可看作是以上基因漂移模型的极限表现（Limit behavior）。

上述基因漂移模型的初始假设依然非常简单，依然没考虑到到自然选择、基因突变、线粒体遗传等诸多因素。如果再把这些因素加入模型中，就不得不穿过缩小隧道，进入细胞，甚至分子的尺度中去一探究竟了。

四、DNA时代

孟德尔眼中的基因是不可见的，这种观点显然已经无法满足科学的需求。自从20世纪50年代 DNA 被发现后， “基因”就同 DNA 形影不离了，遗传学正式进入了分子时代。

DNA 最令人惊讶之处就在于，所有的遗传信息都完全包含在了简称 C、G、A、T 的四种碱基的排列组合中。那么 DNA 是如何控制生命成长的呢？事实上是依靠氨基酸的合成，每三个碱基就对应一种氨基酸。因此从理论上说，只要能对某个物种 DNA 进行测序，就能完全确定该物种的所有习性，从而对物种进行精确分类！

物种分类起源于十八世纪生物学家卡尔･林奈等人的工作，尔后人们常用系统发生树（Phylogenetic tree）来描述生物分类的过程。不过由于技术限制，那个年代的分类方法主要依赖于专家经验，生命科学进入分子时代后，不同物种 DNA 序列之间的异同程度逐渐被用作绘制系统发生树。

在上面的系统发生树中，生命被划分为细菌、古细菌和真核生物三个域（Kindom），这种分类方式正在被人们普遍接受。图片来自维基百科

在上一节中我们知道，基因漂移模型可以用来解释基因型消失的一个原因。但若从 DNA 的角度看来，它无法解释为什么生物体的 DNA （而不仅仅是基因型）也会发生变化，因为基因漂移模型并未考虑到基因突变的情况。

那么怎样研究基因突变对物种演化带来的印象呢？在数学家和统计学家的眼中看来，基因突变本质上就是 C、G、A、T 四个碱基发生随机性变化，这个过程可以用马尔可夫过程（Markov process，随机过程的一种）来描述。本质上说来，马尔可夫过程从突变概率出发，分析出不同 DNA 序列是如何由同一条 DNA 序列演化而来的，从而顺着系统发生树来找到不同物种间的异同度（或者距离）。

例子（DNA 序列分析与系统发生树）：
考虑下面几个相似物种的 DNA 片段：

如果要研究上述 DNA 片段的第一个碱基的演化史，需要先假设对应的系统发生树模型：

确认出不同 DNA 片段间的距离（记为 D，在上面的例子中这是一个 5x5 矩阵）就是使得下面的似然函数（Likelihood function）极大化的 D 的取值：

然后我们就能知道五个物种之间的血缘关系到底如何了！

当然，不仅仅限于演化生物学，上面的计算方法在整个生物信息领域中运用都十分广泛，例如 DNA 和 RNA 测序等等。笔者以后会继续谈论这些话题。

五、结语

笔者在这篇文章中较为详细地介绍了“进化论”的进化历史。我们可以看到，和一百年前相比，如今的演化论无论从研究方法还是深度上都有了很大的飞跃，达尔文时代的进化论和孟德尔遗传学也逐渐不再成为学术界的研究主流。虽然理论本身存在瑕疵，但他们提出的大方向是非常正确的，为后人的科学研究提供了很好的铺垫。

当上世纪70年代人们对 RNA 和 DNA 的认识日益深刻以后，数学和统计学的研究方法被大量地应用到和基因工程相关的课题上。不过一方面由于生命体内 DNA 和 RNA 片段众多，对大数据的分析和储存都有较高要求；另一方面由于长链 DNA 拓扑结构（甲基化、组蛋白诱导的重构等）非常复杂，因此就算我们能够精确测量出生命体内所有 DNA 和 RNA 的碱基序列，也远不足以得到所有的遗传学信息。

一段DNA并非所有片段都能被转录成蛋白质，因此人们可以在不改变 DNA 序列的条件下对基因表达进行调控。这就是“表观遗传学”（Epigenetics）的研究核心

抛开生命科学本身不谈，达尔文的演化论对其他学科的发展也有着非常重要的影响。例如在优化算法领域，有一类算法叫做遗传算法（Genetic algorithm），其本质就是在已有答案的基础上，加入突变、连锁互换机制来模拟出一种“适者生存”的环境。相对于其他优化算法，它的优势在于步骤简单且应用极其广泛，不过缺点在于随机性太强，且难以保证得到的答案一定是最优答案。愿意亲自尝试遗传算法原理的读者可以登陆 http://boxcar2d.com/，用该算法设计出一辆能跑得尽可能远、能适应尽可能多地形的小车。

最后，无论如何，演化论都是一个非常伟大的学说。任何一个伟大的学说和理论都有可能饱受非议，甚至有可能出现很多疏漏之处，不过这些学说和理论对科学的发展有着相当大的推动作用。随着生命科学和信息科学的迅速发展，新的颠覆性结果层出不穷，例如在癌症领域，5年之前的一篇学术论文就可能已经做古了。因此，笔者建议对生命科学有兴趣的读者关注最前线的科学信息，而不必太过拘泥于百年前的理论。无论如何，欢迎读者们的各种问题。

参考文献：
[1] James D. Murray, Mathematical Biology: I. An Introduction. Springer, 3rd edition (December 8, 2007) （经典教材）.
[2] Allee WC, Bowen E (1932). "Studies in animal aggregations: mass protection against colloidal silver among goldfishes". Journal of Experimental Zoology. 61 (2): 185–207. doi:10.1002/jez.1400610202.
[3] Josef Hofbauer and Karl Sigmund, Evolutionary Games and Population Dynamics. Cambridge University Press, 1998（经典教材）.
[4] Maynard Smith, John (1982). Evolution and the Theory of Games. ISBN 0-521-28884-3（经典著作）.
[5] Jukes TH & Cantor CR (1969). Evolution of protein molecules. In Munro HN, editor, Mammalian Protein Metabolism, pp. 21-132, Academic Press, New York.
[6] Gu X, Li W (1992). Higher rates of amino acid substitution in rodents than in man. Molecular Phylogenetics and Evolution. 1 (3): 211–214.

欢迎大家关注我的公众号“科普最前线”（id:kpzqxyxg），对话前沿科学！每篇文章都由笔者亲自完成或修改，希望和大家一起交流！二维码：

转载本文请联系原作者获取授权，同时请注明本文来自杨夕歌科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3364297-1130300.html

上一篇：动物怎样觅食最高效？
下一篇：同一个细胞，不同的你

收藏 IP: 164.107.239.*| 热度|

当前推荐数：2 推荐人：蒋继平 张劲松

该博文允许注册用户评论请点击登录评论 (3 个评论)

数据加载中...

返回顶部

杨夕歌

扫一扫，分享此博文

yxgyylj的个人博客分享 http://blog.sciencenet.cn/u/yxgyylj

博文

进化论”进化“到什么地步了？

当前推荐数：2 推荐人：蒋继平 张劲松

该博文允许注册用户评论请点击登录评论 (3 个评论)

杨夕歌

全部作者的其他最新博文

全部精选博文导读

相关博文

yxgyylj的个人博客分享 http://blog.sciencenet.cn/u/yxgyylj

博文

进化论”进化“到什么地步了？

当前推荐数：2 推荐人： 蒋继平 张劲松

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

杨夕歌

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：2 推荐人：蒋继平张劲松

该博文允许注册用户评论请点击登录评论 (3 个评论)