博文

漫谈博弈论之二：囚徒困境该如何理解以及有何真正启示？

已有 17513 次阅读 2018-9-14 11:25 |个人分类:漫谈博弈论|系统分类:论文交流

漫谈博弈论之二：囚徒困境该如何理解以及有何真正启示？

前文提到：“囚徒困境被错误理解和错误解释的现象非常普遍，通过网络搜索和论文搜索可以很容易查到大量相关文章，但其中有非常高比例的文章在这个问题上是胡乱套用甚至错误套用和错误理解的”，这种结论自然是不能随便下的，最好的做法是一个个例子地举，具体分析这些例子中究竟是怎么错误理解了的。但由于例子过多，是海量存在的，因此本文的论述和例证集中在几个最为典型也相对最为通俗易懂的囚徒困境案例上。首先从源头案例，即最为‘经典’的囚徒的囚徒困境本身开始。

一、囚徒的囚徒困境

在囚徒困境中，有甲乙两名犯罪嫌疑人，其博弈支付矩阵（简称为博弈矩阵，下同）如下：

表1 囚徒博弈支付矩阵

		乙
		不认罪（合作）	认罪（不合作）
甲	不认罪（合作）	A，A	B，C
甲	认罪（不合作）	C，B	D，D

（注：表中的‘合作’、‘不合作’指的是甲乙之间的合作关系）

传统观点认为，当上述博弈矩阵中的收益参数满足：C > A > D > B时，即认为陷入了囚徒困境，因为最终的稳定均衡点（纳什均衡）是都认罪的（D,D）方案（即甲乙互不合作），虽然双方合作的收益大于不合作（A>D，即都不认罪的收益大于都认罪）。上述结果可以通过对甲乙双方博弈过程的数学分析来证明，比如运用演化博弈模型的分析方法就可以很清楚地证明这一点：当对该博弈矩阵（即博弈策略集）进行无限次博弈后，其演化的结果最终会在甲乙均认罪的方案上达到演化稳定均衡（也是演化稳定策略ESS，即博弈结果不断趋近于该演化稳定均衡点）（详见最后的附录***），也就是说甲乙双方最终选择的会是互不合作（不考虑甲乙私下签署合作协议等庭外沟通的情形，因为那会增加新的条件和新的博弈策略集）。这个例子是博弈论的非零和博弈中最具代表性的例子，尤其是反映了这样一个深刻的问题：由于在这种博弈中，个人最佳选择并非团体最佳选择，从而导致在即使合作对双方都有利时，保持合作也是困难的。

对该案例的理解，如果就到此为止的话，是几乎毫无争议的，我也认同这个理解（在C>A>D>B的假设条件满足下）。然而，再往后的继续延伸解读就开始有了令许多人困惑以及胡乱引申、胡乱解读的问题了。最为流传广泛的解读是：由于在这种博弈中，虽然合作收益A是大于D的，但由于‘单方合作另一方不合作’时会导致合作方受损，即B最小，因此最终导致在反复思考博弈后，甲乙双方最终均选择不合作，这导致了双方陷入了‘囚徒’一般无法挣脱的困境，这是一种由于理性所导致的囚徒困境。那么，这个令人有些困惑的理解究竟是对还是错呢？或者说，究竟该如何去理解这个局面的形成前因后果？这种局面究竟是否真的是一种困境，而且是无法摆脱的困境呢？甚至还是一种由于理性所导致的无法摆脱的博弈困境呢？接下来笔者对此进行如下梳理和分类辨析。（看到这已经看不太懂的读者，可以先打住回过头去从头开始多看几遍，直到把上文看懂了、巩固了再继续往下看。）

先说结论，我认为，‘经典’的囚徒困境案例本身是有重大瑕疵的：案例本身没问题，但对于该案例的解读，尤其是将其解读为‘困境’和‘由于理性所导致的困境’的提法是不恰当的，是过于武断、含糊不清甚至错误的。那么究竟该如何解读该案例呢？让我们首先从对该案例的背景信息梳理开始（即对任何一个博弈策略集或者说博弈支付矩阵的建立，均应首先明确该策略集的边界条件和物理意义，不能把模糊不清的边界条件，尤其是多种可能完全不同的边界条件或是不会同时存在的边界条件混杂在一起来解读该博弈策略集）。

第一种情形：执法者在甲乙决定是否招供认罪前已经获得确凿证据证明甲乙有罪。

对于甲乙双方共同犯罪后的法律审判来说（假设罪行程度甲乙双方是相等的），唯有当执法者并未得到充分的证据来证明甲乙双方是有罪的，需要依靠甲乙的坦白所提供的证据来认定罪行的时候，才可能会存在C > A > D > B这样一个经典的囚徒困境博弈局面（尤其是A>D的局面）。而如果执法者已经掌握了甲乙犯罪的充分证据，并不是通过甲乙的招供来获得证据的话，最终的审判结果所产生的博弈局面应该是C=D>A=B的（在‘坦白从宽抗拒从严、认罪态度诚恳悔罪积极可以有适当的惩罚减少做为鼓励’的原则下）。在此情景下（即C=D>A=B的博弈关系）的模型演化结果只有一个：就是甲乙双方均招供，因为在演化博弈模型分析中，只要D>B，则（D,D）方案一定是一个演化稳定均衡点***。值得一提的是，在该博弈局面中，不存在比（D,D）方案更优的策略，因此也就不存在困境。

第二种情形：执法者在甲乙决定是否认罪前并未获得确凿证据证明甲乙有罪。

唯有在这种情形下，才有可能出现囚徒困境现象。但是否真会出现囚徒困境且看下文分解：当执法者并未掌握足够的犯罪证据，而甲乙双方又确实有罪行时，甲乙双方的博弈矩阵的确会出现A>D>B的现象，但C应小于A而不是大于A（即单方认罪坦白者的收益应小于一起抵赖不认罪时的收益，或者说单方背叛者的收益应小于双方合作，因为一起抵赖时法庭没有足够证据证明二者有罪，因此惩罚将会最轻，即A最大），也就是说，这种情形下的博弈支付关系应是A>C=D>B（或C约等于D）。此时的演化稳定均衡点有两个：（D,D）方案和（A,A）方案。因为根据演化博弈模型的推导：只要D>B，（D,D）方案就一定是一个演化稳定均衡点；同时并不排斥地，只要A>C，（A,A）方案也一定是一个演化稳定均衡点***。

更通俗地说：D>B导致（D,D）方案成为演化稳定均衡点的物理含义是，只要存在对背叛（招供）的‘奖励’机制且‘奖励’后的收益大于单方合作者（抵赖）的收益，那么互相背叛（即招供、认罪）就会成为一个稳定的演化博弈均衡点；A>C导致上述结果的物理含义是，只要存在对合作的‘奖励’机制且‘奖励’后的收益大于单方背叛者的收益，那么互相合作就会成为一个稳定的演化博弈均衡点。

那么，接下来的问题就来了，既然在同一件事的博弈中，存在两个稳定的博弈均衡点，而且这两个演化稳定均衡点在物理含义上是正好相反的（一个是互相合作，一个是互相背叛／互不合作），虽然互相合作（不认罪）的收益是大于互相背叛（认罪）的（A>D），但在现实世界中，囚徒选择收益小的（D,D）方案的概率经常会高于（A,A）方案，那么这是否就意味着甲乙双方在这种情景下的博弈陷入了困境，即所谓的‘囚徒困境’呢？而且还是由于理性所导致的博弈困境呢？我认为事实并非如此，理由如下。

首先，甲乙双方在最终决定选择认罪还是不认罪（囚徒间合作还是不合作）时，其真正的博弈内容并不仅限于表1的博弈内容，而是还会考虑其未来的长远利益，即要考虑暂时逃脱惩罚后，今后所必需面临的复杂局面和长期风险：二者仍必需时刻提防对方的可能背叛，以及执法机关搜获确凿证据或其他人揭发等多种可能。因此在这个博弈中，囚徒面临的是至少两个博弈局面：一个是短期利益博弈矩阵，即表1；另一个是长期利益博弈，即综合考虑短期利益和长期利益之后的全局利益博弈矩阵。在短期利益博弈矩阵（或者说当前利益博弈矩阵）中，的确存在选择困境：因为（D,D）方案和（A,A）方案同时都是演化稳定均衡点，而且A>D，如果仅从当前的短期利益来看的话，应该是选择（A,A）方案才最优，但事实上现实世界中选择（D,D）方案的比例经常是高于（A,A）方案的，这种选择难道真的是因为理性所导致的囚徒困境？这就与包括长期利益考量后的全局利益博弈有关了。事实上，在全局利益博弈矩阵中，并不存在这种选择困境，理由如下。

在综合考虑短期利益和长期利益的这样一个更为宏观更为全面的博弈矩阵中，其博弈关系要复杂的多，要考虑的因素也多得多，在博弈矩阵的数学分析处理中，可以采用添加一个综合的风险收益函数的方式来进行简化考虑，并同样假设甲乙双方在长远利益得失上的处境（包括个人应对能力等等）是完全一样的。这样的话，最终考虑了长期利益之后的全局利益博弈矩阵中，仍然会是一个对称博弈矩阵的结构，形式上与表1完全相同（ABCD的符号仍可以继续使用），只是此时的博弈支付关系不再是短期利益博弈时的A>C=D>B，而会是D=C>B>A。

在全局利益博弈矩阵中，符合D=C>B>A博弈支付关系的理由论证如下。从概率来说，甲乙要保持长期甚至永久地通过一起抵赖（不坦白不认罪）来逃脱对该罪行的惩罚，需要支付大量的精力、金钱或承受长期的巨大心理压力（因为当其二人在第一次的法庭审判中通过联合抵赖逃脱了暂时的惩罚或是减轻了惩罚后，在日后的生活中，二者仍必需时刻提防对方的可能背叛，以及执法机关搜获确凿证据或其他人揭发等多种可能），综合考虑这些长期的博弈和心理负担所带来的利益损失后，A值从风险收益和概率的角度来说反倒可能会是最低的（许多重刑犯在被抓到后如释重负，有如得到解脱，即为证明）。当然，的确也会有较小的概率出现逃脱得益的结果，即：最终甲乙双方通过一起抵赖而逃脱惩罚，而且逃脱后的长远代价小于当初的一起坦白认罪。但这只是从概率上来说的确有可能存在这种现象（即凡事不完全绝对），但仍然从概率性的风险收益比的角度来说，A最小是最为可能的情景（否则，则需要‘该罪犯所在的社会中法治极为混乱、社会公德极为混乱’等这样一种环境条件）。此外，还有这样一个机制也会导致长期利益博弈矩阵A最小：不论当前罪行大小，当一个人犯罪后毫无悔过之心时，对自己的过错逃避和欺骗成为习惯时，未来必将产生更多以及更重的过错或罪行，因此，一起抵赖的选择从这个角度来说，也是极为糟糕的，是陷入日后恶性循环的推动力。更进一步地，因此，从长远利益和全局利益的考虑来说；以及从对人的良知的拷问的角度来说；以及从罪犯自己改过自新、产生自我约束力和自律自省能力，以避免日后更加放纵自己导致罪行不断恶性积累的角度来说，（A,A）的选择都是最不利的，是风险最高的也最容易形成更大的恶性循环的，因此相比而言，坦白的选择（D,D）反倒有最大的概率和理由成为最优的、收益最大的选择。D>B和C>B的理由同上文，不再论述。

基于上述分析，在全局利益博弈矩阵中，由于符合（或基本符合）D=C>B>A博弈支付关系，按照演化博弈模型的分析结果，由于D>B，同时C>A，因此不存在两个演化稳定均衡点，只存在（D,D）这一个演化稳定均衡点，也就是说，在反复博弈之后，会在甲乙均认罪的（D,D）方案上达到演化稳定均衡（即演化稳定策略ESS）。

综上所述，在法治运行良好的社会治理环境下、在具有良知的社会氛围和个体价值观下，追求眼前短期利益所导致的囚徒选择困境，只是在短期内和局部利益中的选择困境；在综合考虑短期利益和长期利益的全局利益博弈中，并不存在选择困境，更不存在因为理性而导致的囚徒困境。（上述推理中所提及的社会环境与社会氛围，暗含有需要某种普适价值准则#3#的深刻涵义。否则的话，不论是短期利益博弈还是全局利益博弈都不会存在现有的这种选择困境，因为在无规则、无法治、无良知的社会中，其运行机理会完全不同，打得赢或最无耻者就是老大。不过，在这种社会中，仍然会存在其他的选择困境，而且会是更加严重的悲剧式困境。这是另外一种会陷入恶性循环直至巨大灾难的社会情景，为缩减篇幅在此不再详细分析。另外，关于为何用普适价值准则而不是普世价值观，详见下文案例四中的#3#附注）。

因此，传统的“囚徒困境”案例所举的例子，并不是恰当的、准确的囚徒困境，至少是在语义上和解释上过于含糊不清的囚徒困境，现有的各种对囚徒困境的解释和理解是有严重缺陷和瑕疵的，这种瑕疵和缺陷的根源在于对于所分析的博弈情景的物理意义（即真实局面和边界条件等）梳理得不够明确清晰，导致了各种信息的不恰当混杂乱用，或是未充分考虑其真实博弈情景，最终导致了对“囚徒困境”博弈在理解上的含糊不清甚至混乱。

基于上文的分析可以看出，“囚徒困境”案例中，囚徒的困境与对社会正义的解释，以及与囚徒的长远利益和全局利益有关，这种所谓的‘囚徒困境’并不是一种理性导致的决策困境，也不是因为不理性导致的决策困境，而恰恰是理性博弈后，尤其是考虑长远利益后进行理性博弈的最佳选择，前提是该社会的运行机制和主流价值观是符合普适价值准则体系的#3#。

如果上述分析和观点可以被接受的话，那么接下来的问题又来了：究竟是否存在真正的‘囚徒困境’呢？即是否存在因为理性所导致的博弈困境呢？以及是否存在因为理性的博弈导致即使‘互相合作’的收益大于‘互相背叛’（或互不合作），但‘互相背叛’（或互不合作）的选择成为了最稳定的均衡点策略呢？答案其实在上文的分析中已经有所出现了，思路线索是：这既与博弈中是否存在对背叛/不合作的‘奖励’机制或者说背叛获利机制有关，也与‘短期利益博弈矩阵和长期利益博弈矩阵是不同的’有关。为进一步理清这个问题，先从一个新的囚徒困境案例分析开始。

二、价格战中的囚徒困境

经济活动中，价格战是经常发生的商业行为，同样利用上述博弈矩阵，只是将博弈策略从‘认罪-不认罪’替换为‘降价-不降价’，则有如下博弈矩阵：

表2 厂家博弈支付矩阵

		乙
		不降价（合作）	降价（背叛）
甲	不降价（合作）	A，A	B，C
甲	降价（背叛）	C，B	D，D

上述博弈矩阵，其演化博弈的机理与表1几乎完全相同，只是外部边界条件会有所不同，比如不存在表1博弈中存在的罪犯罪行是否已知等前提条件问题，但会有其他具体问题，详见下文辨析。

这个有关商业价格战的例子，也经常被各种教科书拿来做为囚徒困境的典型案例。那么，这个例子是否是恰当的呢？这同样需要从短期利益与长期利益、局部利益与全局利益的多个视角来进行分析。与上文对囚徒博弈矩阵（表1）的分析所不同的是，表2在以下前提下完全满足C>A>D>B（这是‘经典’的囚徒困境博弈支付矩阵），即：市场上不存在其他竞争者，而且甲乙双方的产品完全是类似的，并且在质量、效用、品牌口碑等方面不存在差别，也不存在其他的利益关联比如某方拥有该产品的专利权之类。在这样一种不存在其他影响因素和利益关联的，完全自由的市场竞争的前提下，C>A>D>B的格局很容易理解，就不对此做深入解释了。按照演化博弈模型分析结果，当C>A>D>B时，只有（D,D）这一个演化稳定均衡点（纳什均衡），即双方均降价才是演化稳定策略ESS。

问题的关键是，这样一种格局（即最终会导致双方一起降价的博弈格局）是一种囚徒困境么（即由于理性导致的困境）？我认为不能认为（至少不能简单地认为）这是一种不良的困境，理由如下：

首先，从整个社会格局来说，这种降价结果对于提高整个社会的福利水平是有利的，因此这个结局即使会导致某些个别企业的困境，但对于整体社会而言不仅不是困境，反而是好事。

其次，降价有利于推动或迫使企业进行技术革新和新产品研发，从而提高生产效率或提高产品质量和效用，因此也不应被视作是企业的囚徒式困境，反倒应被视作是企业间优胜劣汰的动力之一。

第三，从反推法来说，如果稳定的均衡点是双方都不降价，那么企业将没有动力去进行新技术研发和新产品研发，只需安心墨守现有利益和简单地重复制造现有产品即可，这既不利于提高社会生产效率，同时也不利于提高社会的福利水平（即社会不能从降价中得到额外的社会整体收益）。此外，值得一提的是，双方不降价本质上是一种广义上的垄断行为（人类社会要推行反垄断法就是要避免各种形式的恶意不降价、恶意提价或是恶意降价击垮对手再涨价的行为），而只要是垄断都会产生某种程度的不当得利，损害社会整体利益甚至损害社会公正。因此，从反推法分析的角度来说，价格战的博弈结果导致双方均降价的现象，也不应被视作是一种囚徒式的困境，因为不降价并不是全面更优的选择（即使对于企业自身来说，长期安稳于不降价的收益之中只会损害其竞争力的提升和减少其技术水平提高的推动力）。

第四，有观点认为，‘双方降价成为博弈稳定均衡点的现象，导致了恶性竞争，尤其是导致了产品质量下降和产品安全下降，因此这样一种均衡是囚徒式的困境，对企业不利也对社会不利’，对此，本文认为：降价导致产品质量下降和产品质量安全出现问题，是另外一个博弈矩阵的事情，需要纳入其他的博弈策略，而且这与社会的工商管理和法治水平有关，也与企业自身的诚信度和信誉等道德因素有关，而与产品本身的价格竞争无关（至少不是唯一相关和最为决定性的因素），不应把产品安全问题和产品质量下滑问题的根源和首要责任推给是价格过度竞争导致的，即使这的确是其中的一个影响因素，那也是一个更为复杂的博弈矩阵下出现的困境，而不是由纯粹的价格竞争所导致的困境。更为直接地，这种困境与其说是产品价格竞争导致的困境，不如说是由于社会集体理性的内在推动导致的某些无能、落后或缺乏职业操守的企业的局部困境。

第五，假设甲乙达成了长期不降价协议，如果甲乙对该产品并无专利保护权的话，当一个新的企业丙加入时，如果丙的实力远超甲乙，产品质量、效用和安全性也远超甲乙，则会导致甲乙迅速陷入困境或倒闭，因此不降价的合作策略对于甲乙的长远发展来说也不是好事，也因此双方一起降价策略是博弈的稳定均衡点这一现象同样不应被视作是囚徒式的困境，而是理性的必然结果和最佳选择。

综上，价格竞争会在短期内造成企业的局部困境或部分企业的局部困境（因为双方合作不降价的策略不是稳定的均衡点，一起降价才是稳定的均衡点，从而造成双方整体利益的当下减损），但这种困境和当下利益减损是短期性的局部困境，并非囚徒式的困境，更不是由于理性所导致的囚徒式困境。这一演化博弈的结果，不论是从企业的长远利益还是社会的长远利益来说，都是好事而不是坏事，既有利于提高社会整体福利水平，也有利于社会的新技术研发和新产品研发，以及随之带来的社会整体生产力水平的提高。因此，这种演化博弈正是社会集体理性的表现，或者换个角度来说，这种自发的演化过程，正是社会集体理性的内在动力源之一，是社会进步的推动力之一，而不是所谓的囚徒式的困境。把这种现象当做囚徒式的困境甚至理性的困境来看待的做法，犯了在价值判断上正好反向的不理性且狭隘的错误。对于身处竞争环境的企业来说，与其抱怨价格竞争中出现的所谓‘囚徒困境’，不如求助于己，勤练内功，因为价格博弈的结果走向一起降价是不可避免的，是早晚的、必然的，也是符合理性的，不理性的是试图坐享其成或是只知道为自己的无能和落后而抱怨。唯有精益求精和勇于开拓创新，且有能力和眼光进行开拓创新的企业，才能立于不败之地。

三、科研活动与科研合作中的囚徒困境

在价格战案例中，同样没有看到由于理性所导致的囚徒式困境。那么，是否意味着在任何案例中都找不到这样的案例呢？接下来咱们再来分析一个案例，有关科学研究的案例。

在科研活动中，从研究的难易程度和时间投入多少的角度，可以分为两类：一类是无价值或乏价值的短频快研究，这类研究成果可以很快地大批制造出来；另一类是有潜在重大价值的深度研究，但需要较长或很长时间，以及需要保持长期的高度专注与专心才能得到偶尔一个成果。在这个博弈模型中，有以下三个假定：1、假设甲乙双方是科研创造能力相当的研究人员；2、科研利益分配制度设定为：以数量奖励为主，质量奖励为辅；3、对各种行为策略的收益赋值只考虑世俗利益（包括经济利益，和由中低层次成果堆积而获得的学术头衔与学术地位），而不考虑长远的对人类知识体系的学术贡献价值及其相关的永久性学术荣誉等价值。在上述三个假定的基础上，再考虑成果获得的概率因素，可得出收益矩阵的各项数值结果如下：D>C>A>B。即当甲乙双方合力进行短频快研究时，可以获得最大的收益（D最大）；当一方单独从事短频快研究时，由于概率仍然很大，因此从概率上来说获得的科研收益次之（C次之）；当双方合力从事具有潜在重大价值的深度研究时，由于概率较小，因此从概率上来说能获得的科研收益再次之（A再次之）；当一方单独从事具有潜在重大价值的深度研究时，由于概率最小，因此从概率上来说能获得的科研收益最小（B最小）。

表3 科研合作的博弈支付矩阵

对真理与正义的追求		乙
对真理与正义的追求		有潜在重大价值的深度研究	无价值或乏价值的短频快研究
甲	有潜在重大价值的深度研究	A，A	B，C
甲	无价值或乏价值的短频快研究	C，B	D，D

显而易见，同样由于D>B且C>A，因此上述博弈矩阵有且只有一个演化稳定均衡点（D，D）方案（演化博弈可以证明）***，即最终结果是双方均投入到短频快的研究中。而且，如果制度不修改，甲乙的价值观也均不做修改，那么（A，A）的选择会一直空白下去，（D，D）选择会成为主流。显然，从科学价值的角度来说，这就是一个真正的囚徒式的困境，即由于对经济收益的理性追求导致了囚徒困境，损害了真正的学术研究和学术发展（但其实，即使从经济理性的角度来说，这种选择也是不理性的或不够理性的，因为追逐这种由无价值或乏价值但数量多的 ‘科研业绩’所带来的经济收益，最终会导致社会整体效率的降低和科研资源的浪费，从而导致整体经济收益的损害，并最终或多或少地损害其中的每一个个体）。那么导致这种囚徒式困境的根源是什么呢？显然是这两个原因：科研利益分配制度的畸形和扭曲；以及当事人（甲乙科研人员）的价值观畸形和扭曲。更进一步地：这种囚徒困境是由于不理性的制度和不理性（或扭曲）的价值观所导致的科研活动、科研合作的囚徒式困境，而不是由于理性导致的理性困境。更简洁地说：这种科研活动的囚徒困境是由于不理性而导致的囚徒式困境#1#。这种困境不仅是一种学术不理性（把本应追求学术价值为第一位的科研活动变成了追求科研工分奖励和论文工分奖励的纯经济行为），也是一种宏观上的，尤其是长远的宏观经济利益上的不理性。

解决这个囚徒式困境的方法很简单也很简洁：一、改变科研利益分配制度，大幅提高所有具备足够科研能力资格的科研人员的基础性收入#2#，大幅减少或取消对于科研成果的日常性奖励，只对真正重大的科研成果进行奖励。二、尊重和重用那些真正获得了重大科研成果的科研人员，把对科研成果的价值评判权完全交给他们，但又不强制任何个体（即任何科研人员都有权选择放弃评价他人科研成果。当然，对有危害性和误导性的科研成果进行评价是所有科研人员的义务，更是掌握学术评审话语权的科研人员的责任），同时批评、严惩直至开除那些在科研成果评价中不作为和乱做为的科研人员。

#1#本应最理性的科研活动，若其本身却由于不理性导致陷入了囚徒式的困境中，这是怎样的一种黑色幽默呢？

#2#科研能力不合格的一开始就不应该放进来，但在既成事实的局面下，从社会安定和对人应有基础性尊重的角度出发，采取新老体制并行、增新不增旧的做法来解决这个问题不失为一个好方法，即：新体制中的科研人员采取高标准准入制度，同时给予高标准的待遇，类似国外通过非升即走考评方式获得高薪终身教职的制度；旧体制的研究人员维持原有待遇水平，觉得屈才了的可以自愿选择是否进入新体制的评价体系（比如仅需提供3-5篇现有代表作，并详细谈谈这几篇代表作的学术价值和其本人在其中的具体学术贡献），但旧体制不再新增人员。由此实现新体制人员不断增多，旧体制人员随着退休、转岗、主动离职或参评新体制等而不断减少，最终实现从旧体制向新体制的全面而又稳妥的转变。

四、追求真理与正义的囚徒困境

在案例三‘科研活动和科研合作中的囚徒困境’中，总算找到了一个真正的囚徒式困境，但该困境并非由于理性而导致的囚徒式困境，而是由于追逐个人或局部经济利益的经济理性，而导致的短期内的整体性和全局性的不理性（虽然这个‘短期’有可能不短），因此从根本上来说，这是由于不理性所导致的，是由于不理性的制度和不理性（或扭曲）的价值观所导致的囚徒式困境。那么，“由于不理性的制度和不理性（或扭曲）的价值观所导致的囚徒式困境”这种现象是否有普遍性呢？接下来看一个涵义更为宽广而深刻的例子：关于追求真理与正义的例子。

在对任何博弈模型进行数值分析和博弈局面推演之前，需要对博弈支付矩阵进行赋值，这个赋值过程对后续的分析和推演是极为重要的基础和前提条件，不同的赋值方法反应了不同的社会现实和社会运行规则（更直接且准确地说：一个好的博弈模型，必须是对社会现实和社会运行规则有准确总结和概括的，否则就是无意义甚至错误的博弈模型，其给出的分析结果也将会是无意义甚至错误的）。该案例的模型假设存在以下两种截然不同的赋值方法和赋值情景。

表4 追求真理与正义的博弈支付矩阵

对真理与正义的追求		乙
对真理与正义的追求		追求（合作）	不追求或无所谓（背叛）
甲	追求（合作）	A，A	B，C
甲	不追求或无所谓（背叛）	C，B	D，D

第一种为：A>B>C>D。其对应的社会情景是：

1）双方共同维护社会正义和携手追求真理时，获得最大的收益（A最大）；

2）单方维护社会正义和追求真理时，获得的收益次之（B次大）；

3）当任何一方不追求真理和社会正义，对违背科学规律和有违社会正义的现象无所谓甚至主动参与时，将受到利益亏损（C较小或很小）；

4）当双方均不追求真理和社会正义，对违背科学规律和有违社会正义的现象无所谓甚至主动参与时，将受到最大的利益亏损（D收益最小）。

显然，上述这种A>B>C>D的博弈支付矩阵，只会在社会普遍追求真理与正义，且真理与正义得到了及时、准确的伸张的前提下才会出现，而要稳定可靠地实现A>B>C>D非常困难，只有在绝对理想国才能真正彻底实现（或者说实现了的话，这就是绝对理想之国了），原因是：对经济利益的追求是人性的必然，而对真理和正义的追求与维护即使得到承认、赞赏和奖励，也往往需要较长的确认和辨认时间，更不是可以立即变现的直接经济收益，因此要精确、稳定地实现A>B>C>D是非常困难的。不过，值得欣喜与乐观的是，即使A>B>C>D的博弈支付矩阵格局难以完全精确、稳定地实现，但只要A>C则（A,A）方案就是演化稳定均衡点***。因此要达到这一格局，意味着需要有良好的符合普适价值准则#3#的社会运行规则体系和社会群体价值观体系做为背景条件。

更详细地：上述分析意味着，即使人类社会难以精确、稳定地达到A>B>C>D的绝对理想国境界，但只要存在对维护公道正义和追求真理与社会正义的‘奖励’机制，并且‘奖励’结果使得A总是大于C的（即A>C的社会运行机制必需是稳定可靠的，也就是说：双方维护社会公道正义时的个人收益要稳定可靠地大于单方不维护社会公道正义时的单方个人收益），整个社会体系就会在（A,A）达到稳定均衡点，即会稳定地形成良好的追求真理与社会正义的社会主流氛围。

第二种为：C>D>A>B。其对应的社会情景是：

1）当单方不追求真理和社会正义，对违背公道正义的现象无所谓甚至主动参与时，将获得最大的收益（C最大，这意味着存在对这种行为的奖励机制或纵容机制）；

2）当双方均不追求真理和社会正义，对违背公道正义的现象无所谓甚至主动参与时，获得利益次之（D次大，因为不当得利被双方共享时，边际收益递减）；

3）双方共同维护社会正义和携手追求真理时，获得收益一般（A再次之，即双方共同承担铁肩担道义的责任）；

4）单方维护社会正义和追求真理时，获得的收益最小（B最小，存在对单方面承担铁肩担道义责任的‘惩罚’机制，而不当得利者的行为被某种奖励机制或纵容机制所包容）。

显然，只有在一个价值观扭曲与败坏，尤其是社会规则扭曲和败坏的社会氛围中，才会出现上述这种C>D>A>B的博弈支付矩阵。在这一博弈支付矩阵情景中，有且只有一个演化稳定均衡点（D,D）（D>B因此D,D是一个演化稳定均衡点）***。这一规律意味着，只要社会中稳定地存在对违背公道正义的现象无所谓甚至主动参与行为的奖励机制或纵容机制，或是稳定地存在对于单方面承担铁肩担道义责任者的惩罚机制，导致D稳定地大于B，则整个社会必会陷入人人自危、道德败坏的境地，如果得不到及时扭转，终将陷入巨大的社会集体灾难或崩溃之中（可称之为绝对地狱国或绝对罪恶国）。这一情景分析中，最为有价值的启发是，这说明：任何D>B的社会运行机制或重大个案，都是对社会公道正义的巨大伤害，必需得到及时纠正，否则必然导致社会价值观体系的伤害甚至严重伤害，长期积累会导致整体性道德败坏与社会秩序的崩溃。从这个视角来回看人类历史，还可以反推出这样一个结论：所有人类历史上的社会灾难与战争，都是由于背离了追求真理与正义的道路，在严重扭曲与畸形的社会运行规则体系，和严重扭曲与畸形的价值观体系下出现的，是不理性、理性不足或不理性地违背了普适价值准则所导致的恶果和囚徒式困境。

4.1对于‘追求真理与正义的囚徒困境’的小结与延伸

上述两种社会情景A>B>C>D（绝对理想国）和C>D>A>B（绝对罪恶国）都是理论上的构想情景，是社会发展的两种极端情形，在现实世界并不存在或几乎不存在，现实世界更多的是介于这二者之间的类型，可以从ABCD的相互关系排列中罗列和总结出各种不同的类型和层次，这方面还可以进行深入分析和梳理。为本文的行文简洁，下文仅直接针对B与D的数值关系进行讨论和论述（换成A与C的数值关系或ABCD四者间数值关系的梳理方法也是类似的）。

在任何社会的社会运行规则体系中（包括社会制度体系和人际交往规则体系，下同），长期稳定且精确地保持B>D（可称之为理想国或天堂国），或是长期稳定且精确地保持D>B（可称之为罪恶国或地狱国）的现象都是极为困难和罕见的，更多的是介于二者之间情形的。这是因为：任何一个社会的运行机制都是极为丰富和复杂的，是多维度、多角度、多领域门类的复杂体系，而且人性是复杂的，是感性理性兼有、善恶兼具的（绝对的善是难以完全精确稳定地做到的），这意味着常见的人类社会体系往往都是这样的情况：在该社会的社会运行规则体系中及其实际运行中，有些是B>D的，有些是D>B的；有些时候是B>D的，有些时候是D>B的。具体情况取决于该社会的理性化程度：当理性化程度高时，B>D的社会运行机制和实际行为多于D>B的；当理性化程度低时，B>D的社会运行机制和实际行为少于D>B的，而且经常会出现社会运行机制中和实际行为中的自相矛盾现象。相应地，可以由此大致划分出高理性社会、中理性社会和低理性社会等层次类型。

（1）在高理性社会中，符合普适价值准则的社会运行规则体系完善且自洽，人们生活快乐自由，幸福度最高，社会在智慧上的繁荣程度很高，物质上的繁荣程度往往也很高#4#，整体创造力非常高。

但是，高理性社会形态需要人们的智识水平和理性程度普遍比较高，或者说唯有该社会人群的整体理性程度和整体智识能力长期维持在较高的水平，才能使得整个社会保持在高理性社会水平。高理性社会并不能仅仅由其中的部分高智识、高理性者来完全支撑，更不能仅仅依靠其中的某几个高智识、高理性者来完全支撑，因为所有的社会运行机制及其所管理和处理的日常生活，都是由其中的每一个个体去实施、体验和检验的。高理性社会也不能仅仅依靠完善的社会运行规则体系本身来长久维持，而必须是‘完善的社会运行规则体系’和‘人们对普适价值准则的高度接纳与普遍采用’相辅相成才行，因为当该社会人群逐渐出现越来越多的不理性、不道德、低智识行为时，对于原本完善的社会运行规则体系便会逐渐提出符合其不合理、不理性甚至不道德意愿的修改意见，从而会逐渐导致高理性社会的消解直至崩溃。

此外，一个更为深刻的机制是：极端自私自利者或权欲熏心者，由于其真实价值观与高理性社会所必需的普适价值准则体系有所不同（包括或是因为信仰的原因，或是因为个人的极端自私自利本能，或是突发性地想要追求极端的个人利益和个人权势而不愿意遵守普适价值准则规则时，高理性社会的运行规则体系便会对其造成痛苦，于是他/她便会产生按照其个人意愿修改原本合理的社会运行规则体系的需求和欲望，当这种希望修改的人越来越多（或是当提出修改者拥有足够大且缺乏制衡的权力）时，高理性社会就会逐渐消解直至崩溃。

因此，要维持高理性社会，智识教育、辨识能力教育以及普适价值准则教育#3#必需是长期稳定地进行着的，一有松懈便容易出现社会倒退现象，从而反过来影响原本正常的社会运行规则体系的运行。愚民化教育和反智的教育，以及过度自由化缺少严肃性和缺少普及性的知识教育体系，都会导致社会倒退的恶果（这里指的是：在智识教育、辨识能力教育以及普适价值准则教育#3#等方面，不可因为强调个体自由权力而忽视和放纵那些不愿意接受教育和不愿意接受普适价值准则教育者的滋生和繁衍，后者的不断增长必将带来巨大的社会问题、隐患乃至灾难）。

（2）在低理性社会中，社会运行规则体系不完整更不完善，且有许多愚昧甚至自相矛盾的地方，普适价值准则被排斥或被残缺性地使用，人们生活普遍愚昧、麻木，社会繁荣程度低，整体创造力低下，社会矛盾冲突易发，幸福度普遍不高，偶尔能达成某种平衡和平和，但更容易不时产生巨大矛盾乃至战争。

（3）在中理性社会中，普适价值准则被一定程度地接纳但仍有被歪曲和残缺之处，社会运行规则体系比较完整但不够完善，也会存在部分愚蠢甚至自相矛盾的地方（因为体系越复杂，又不够完善时，自相矛盾的概率也就更大），那些自相矛盾的运行机制容易导致在该社会中生活的人出现人格分裂、道德分裂、心理分裂等现象，和底线经常被挑战的痛苦，并进而容易导致该社会人群的道德水平低下和道德败坏等现象频发，社会矛盾冲突易发，幸福度一般但方差极大（即人群在智识水平、财富水平、幸福度水平等指标上分化严重），整体创造力不高或较低。中理性社会同样需要在整个社会的智识教育、辨识能力教育、普适价值教育上非常重视，才能避免堕入低理性社会的陷阱，才能实现向高理性社会的升华。

#3#本文用普适价值准则而不是普世价值观，原因如下：普适价值准则与普世价值观的区别在于，普适价值是指从对最基本的人性尊重、人性分析，和从最基本的科学理性出发，可以推演得到的人类社会要长久存在和共同繁荣所需要共同遵守的基础性规则，包括为人处世方面的基础性规则和社会运行机制方面的基础性规则（如何看待和评判社会运行机制，也是价值观的一个方面），这些基础性规则是基于客观辨析和科学逻辑推导出的，是符合最基本的理性和科学原理的，因此是普遍适用的；普世价值观是指，如果人们都认同这样一种普适性的价值准则并决心加以普遍推行的话，则普适价值准则就成为了普世价值观。也就是说，普适价值准则是基础，是不以人的理解能力不同、理念信仰不同而转移的客观规律；而普世价值观是人选择的结果，不同的理解、不同的理念信仰下会得出不同的普世价值观。

那么什么才是最为理智、最为科学理性的普适价值准则呢？这个问题非常重要，应该另文专门进行严密的推理分析，在此仅尽量简洁地开个头。我认为，普适价值准则应至少包括以下几个核心要素，简称基础规则：理智、公开、法治、民主、自由、平等。围绕这几个核心要素，还可以推演出人类社会需要以下更为通俗易懂的普适价值规则，简称通俗规则：公正、财产权、言论自由权、互相制衡、自律、互相尊重、互相宽容。

接下来解释其中的三个重要问题。1、为何把理智放在第一位？2、为何把公开放在第二位？3、为何把公正、财产权、言论自由权、互相制衡等放在通俗规则中而不是基础规则中？

对于第一个问题，这是因为任何社会要想长治久安和共同繁荣，其社会日常运行中的公开与法治都必须以理智为基础和先决条件，因为仅仅依靠公开与法治规则本身，未必能保证这种公开与法治是理智的，须知，在愚昧思想指引下的公开与法治，也是很常见的一种现象。更准确地说：绝大多数愚昧都是公开的，不公开的愚昧反倒相对要少；而且绝大多数的愚昧或带有愚昧性的社会治理体系下，也是有法制的和实行了法治的，也是有公开和实行了部分公开的。因此，唯有以理智为基础的公开与法治，以及以理智为基础的社会运行规则体系（包括以理智、公开、法治为基础的社会制度体系，和以理智、法治为基础的人际交往规则体系（私人领域可以不遵守或不严格遵守公开原则）），才是人类社会的真正福祉。

对于第二个问题，这是因为，不公开的民主，不公开的法治，很容易导致在社会运行和社会治理过程中，出现一批流氓代替另一批流氓，流氓轮流坐庄，坐庄就成流氓的现象（尤其是在社会道德水平与智识水平不高或低下时），因此有必要把公开的重要性放在民主和法治之前。

对于第三个问题，这是因为只要是严格、稳定地做到了‘理智、公开、法治、民主、自由、平等’，那么该社会就必然会是公正的。另外，自由权里就必然涉及对财产权的保护和对言论自由权的保护，有了自由权加上理智基础上的公开与法治，就更会确保公正、财产权、言论自由权和互相制衡的实现。因此，也就是说，‘公正、财产权、言论自由权、互相制衡’与前面的几个基础规则其实是规则重复的，只是为了便于通俗理解因此有必要专门再次列为规则。通俗规则中的自律、互相尊重、互相宽容原则，是为了使整个普适价值体系更加融洽、更加高效地运行而设置的思想性原则和容错机制。

#4#世外桃源般无欲无求、与世无争类型的社会也许也能存在，但这需要更高的智慧水平和自律能力，而且应该只能以少数团体和个别团体的小社会方式存在，因为绝大多数人是理性与感性并存、善恶兼具的（绝对的善是难以完全精确稳定地做到的），尤其是任何人都是有各种需求和欲望的，满足各种需求和欲望是人的天性，刻意磨灭或假装无视个体欲望与需求才是反人性的。因此，尊重人性的同时懂得自我克制、互相宽容，和懂得必须互相制衡才是最高的智慧境界。

五、技术革新的囚徒困境

在上文的案例三和案例四中，总算找到了真正的囚徒式/囚禁式的博弈困境，但这些困境都是由于不理性的制度、畸形的社会运行机制和不理性（或扭曲）的价值观（或价值观冲突）所导致的，是不理性所导致的囚徒式困境，而不是由于理性所导致的博弈困境。那么，除了社会制度和价值观因素，还有没有别的因素也会导致囚徒式/囚禁式的博弈困境呢？下面的这个有关技术革新研发的例子便可以给出某些启示。

假设有甲乙两个企业，其实力相当，研发能力也相当，但技术特点各有所长且具有一定的互补性，在对某个现有技术的革新研发中，甲乙双方的合作博弈矩阵见表5，但在对其中的参数赋值时，同样存在多种赋值方法（这与具体的技术细节，尤其是技术研发的难度和现有技术市场格局等因素有关），有以下两种应该是最为典型的博弈情景：

第一种情形：B>A>D>C，其对应的社会情景或者说物理含义如下。

1）只有一方研发，另一方不研发，研发方独享新技术收益，因此收益最高（B最大）；

2）双方共同研发，共享新技术成果收益，因此收益次之（A次之）；

3）双方均不进行研发，仍旧使用现有技术方法，收益再次之（D较小）；

4）在对方研发时，自己不研发，导致自己的技术落后，因此收益最小（C最小）。

表5 技术革新研发的博弈支付矩阵

技术革新研发		乙
技术革新研发		研发（合作）	不研发（不合作）
甲	研发（合作）	A，A	B，C
甲	不研发（不合作）	C，B	D，D

这一情景的演化博弈结果很明显：由于A>C且B>D，因此（A,A）策略是唯一的演化稳定均衡点***。在现实世界中，存在B>A>D>C的博弈支付关系的局面应该是这样的：该技术研发难度不高且收益非常确定，双方均有可能做到这种技术革新。对于这类技术研发，显然应该是尽可能抢先研发最重要，但最终的博弈结果最为稳定的均衡点都会是（A,A）策略（如果涉及欺诈，则是另外一个博弈支付矩阵或者说另外一个博弈策略集的事了，此时需要加入新的约束条件和利益关系，比如违约赔偿之类）。

第二种情形：A>C>D>B，其对应的社会情景或者说物理含义如下。

1）双方共同合作研发，由于技术特点有互补性形成了合力，提高了成功的概率，因此考虑成功概率后收益最大（A最大）；

2）技术研发难度过大，有一方不研发，研发方耗费大量精力财力影响了现有技术产品市场的维护和推广，导致不研发方获得额外收益，因此不研发方收益较大（C次之）；

3）双方均放弃研发，继续使用现有技术，收益维持但较小（D较小）；

4）单方独立研发，但由于技术革新突破难度太大，成功概率较小，而且由于研发投入分摊了有限的精力财力，还会影响其对现有市场的推广和维护，甚至可能导致企业陷入困境和破产，因此考虑成功概率和风险后收益最小（B最小）。

这一情景的演化博弈结果是：由于D>B，且A>C，因此该情形下的演化稳定均衡点有两个：（D,D）方案和（A,A）方案（这是因为根据演化博弈模型的推导，只要D>B，（D,D）方案就一定是一个演化稳定均衡点；同时并不排斥地，只要A>C，（A,A）方案也一定是一个演化稳定均衡点***）。这一结果对于企业甲和乙而言，的确存在选择困境，因为虽然A>D，但双方合作研发（A,A）方案并不是唯一的演化稳定均衡点，双方均不研发（D,D）方案居然也是一个演化稳定均衡点。即最终的结果是有些时候企业会选择合作研发，有些时候会选择均不去研发。造成这样一个囚徒困境的原因是什么？更重要的是，这个选择困境是由于理性所导致的博弈困境么？

本文认为并非如此，问题的真正根源在于，该博弈支付矩阵仅仅是一个概率分布的矩阵，在现实世界中，该博弈支付矩阵往往是难以精确得到的，这是一个估计的、不精确的博弈支付矩阵，在这一点上，该技术研发博弈支付矩阵与前面的‘囚徒的囚徒困境’中的博弈支付矩阵是有本质不同的，因为‘囚徒的囚徒困境’中，囚徒自己对自己的罪行及其惩罚后果通常是基本清楚的，不存在多少不确定性。更准确地说，该技术研发博弈矩阵所描述的博弈内容并没有完全描述企业在进行技术研发时所面临的真实局面（尤其是在高难度高风险的技术研发中），因此其博弈推导结果并不是真实可靠的。在真实的企业技术研发过程中，还需要考虑企业的风险承受能力、技术研发实力和技术判断力等等许多复杂的因素，这些因素都需要被纳入到博弈支付矩阵的构建之中，因此，真正的博弈支付矩阵中，ABCD各参数数值的表达形式是复杂的，更非完全固定的数值，而是一个动态的和概率性的数值表达式。在实际的研发过程中，其中有些参数的数值范围可能会突破企业的承受能力极限，导致企业运营出现问题甚至出现生存困难等问题，或是出现了其他风险收益比更好、更稳妥的研发项目可以去做，从而导致当前博弈被终止或舍弃。

也就是说，当该项技术成功概率及其收益的不确定性太大时，或是当企业自身研发判断能力有限和风险承担能力有限时，都会导致甲乙双方即使在机理分析上有较大的把握可以做出该项技术革新，也只能垂涎三尺而不会轻易动手，维持现有均不研发格局反倒是双方最佳的选择之一，除非该企业具备足够的风险承受能力或有足够大的意志力和决心。因此，最终不论双方是否选择合作研发还是都不研发，都是综合考虑的结果，是理性考虑的结果，或是由于其现有理性能力不足以确定清楚ABCD的相关关系导致的保守结果（确定性的ABCD相关关系只是虚拟的结果或是‘事后诸葛亮’回顾的结果）。因此，该案例并不能算是严谨的博弈困境的例子，只是反映了对于以追求利益为首要目标的企业来说，在面临不确定性程度很高和风险很高的技术研发项目时，容易出现：或望而却步保守退缩，或勇猛直前甘冒风险的现象。这种现象是正常的，并非所谓由于理性所导致的博弈困境，而是理性不足以完全掌握研发结果所导致的或保守或冒险的现象和困境。

综上，这种囚徒困境，是由于所博弈的事物存在巨大的不确定性和风险，自身又缺乏足够的研发力和判断力所导致的，因此可以算是第二种类型的囚徒式博弈困境，但这种类型的博弈困境本质上仍然是一种由于理性不足所导致的博弈困境（即智力不足以消除其中的不确定性和风险）。

破解这种由于具有巨大不确定性和风险所导致的囚徒式博弈困境的方法，显然必需通过社会第三方力量的介入来解决：或是通过政府进行补贴或立项（本质上是利用全社会的公共财力，全社会分担风险），或是通过风投的方式引入其他类型的社会资本来分摊风险。由此通过社会力量或全社会力量的参与，将社会中的局部博弈困境和企业的短期利益博弈困境化解到整个社会的全局博弈和长周期博弈之中。

最后是对该案例的一点补充。上述博弈情景的推理分析，不仅适用于高风险的技术创新，也适用于高难度的基础性研究，其结果的启示是：对于这类科学研究，由于整个社会往往是最终的利益受益人，因此有必要形成对这类科研活动进行适当资助和鼓励的机制和氛围，这也有利于更好更快地推动整个社会的知识进步和技术进步。当然，这种资助和鼓励需要有足够科学理性的评价机制加以甄别和约束，需要进行甄别和约束的理由，不仅是因为研究人员能力素质的巨大差别会导致研发效率有巨大差别，还因为越是高端的技术越有可能产生意想不到的破坏力，缺乏道德约束的科技研发极有可能成为人类社会的灾难，而这也是为何任何社会、任何人群均需要建立起普适价值准则和相互制衡机制的根本原因，也是文科和理科必需协同发展，文理均不可偏废，需要相互启发、相互促进的原因。

全文总结及结论

通过对上述五种‘囚徒困境’案例的推理分析，可以得出以下结论：

1、传统意义上（包括最原始最‘经典’）的囚徒困境存在严重瑕疵和误读，这种瑕疵和误读是由于对囚徒困境的发生背景、边界条件等约束条件的物理意义分类梳理不清楚和混乱所导致的，最终导致社会各界包括学术界在对囚徒困境的理解、解读和推广运用中，存在大量的模糊、混乱甚至错乱的现象。

2、不存在由于理性所导致的囚徒困境，只存在由于不理性或理性不足所导致的囚徒困境。所有的囚徒式困境，都或是由于不理性的制度与畸形的社会运行机制，或是由于不理性或扭曲的价值观（即价值观冲突），或是由于所博弈对象存在巨大不确定性和风险所导致的，归根结底都是由于不理性或理性不足所导致的‘囚徒困境’，这种困境是一种囚禁式困境，或可简称为囚禁困境。

3、上述所有囚禁困境，用更长的时间尺度和更为广博的视野来看待的话，都是在不恰当的规则，或过大的不确定性与过大的风险背景下，由于不理性或理性不足导致的短期利益博弈矩阵的囚禁困境，而在由充分理性所主导的长期利益博弈矩阵中，不存在任何由于理性所导致的囚禁困境，更不存在传统理解（即现有通俗理解和‘经典’模型）中的囚徒困境，只要理性足够充分，互相合作总是最佳的选择和最稳定的博弈均衡点。

4、破解短期利益博弈的囚禁困境，前提是个体的理性程度和社会的集体理性程度都要足够高。

5、一个极为可能也有极大把握的展望是：无论是日常生活中的亲情、婚姻、恋爱、朋友、工作或者是其他人际关系中的无法自拔的囚徒困境/囚禁困境式痛苦，无一例外的都是由于不理性或是理性不足所导致的，因为并不存在由于理性所导致的博弈困境，任何博弈中的理性解都是非劣解甚至最优解。

最后，上述推理的一个更为深刻的寓意是：只要人类不断地增进知识、增进理性、增进智慧，则人类的未来必将是一个安宁祥和、繁荣昌盛的大同社会。

***关于这些演化博弈结果的数学推导证明，读者感兴趣或是有疑惑的话，可以自己根据演化博弈模型原理进行数学推导，以下链接中即包括完整的推导过程：

https://mp.weixin.qq.com/s/edGvESn9vxvagthAiHrlkg

转载本文请联系原作者获取授权，同时请注明本文来自钟定胜科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3234816-1134756.html

上一篇：漫谈博弈论之一：演化博弈模型在实际运用中需要注意的关键性问题
下一篇：漫谈博弈论之三：从囚徒困境理论到恶性循环与良性循环理论

收藏 IP: 223.68.89.*| 热度|

当前推荐数：3 推荐人：王安良 姚伟 杨子辉

发表评论评论 (7 个评论)

数据加载中...

返回顶部

钟定胜

扫一扫，分享此博文

钟定胜的个人博客分享 http://blog.sciencenet.cn/u/holyskyz 哲思天地_人定圣天不胜天：人心要和睦安定，以天理为圣，敬畏天理，尊重良知。

博文

漫谈博弈论之二：囚徒困境该如何理解以及有何真正启示？

当前推荐数：3 推荐人：王安良 姚伟 杨子辉

发表评论评论 (7 个评论)

钟定胜

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

钟定胜的个人博客分享 http://blog.sciencenet.cn/u/holyskyz 哲思天地_人定圣天不胜天：人心要和睦安定，以天理为圣，敬畏天理，尊重良知。

博文

漫谈博弈论之二：囚徒困境该如何理解以及有何真正启示？

当前推荐数：3 推荐人： 王安良 姚伟 杨子辉

发表评论 评论 (7 个评论)

钟定胜

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：3 推荐人：王安良姚伟杨子辉

发表评论评论 (7 个评论)