博弈论告诉你，人生本该如此

2020-09-10崔鹏

第一财经 2020年9期

关键词：克塞尔洛德囚徒

崔鹏

我一个同学最近遇到一个问题。他的小孩在幼儿园被同学抢走了奥特曼。本来那个小孩说玩一下就还给他，但是后来，他不还了。孩子回家问，“我该怎么办，那是我最喜欢的奥特曼。”

这就是那种虽然小，但是很不好回答的问题。

我的同学回答这个问题时之所以小心谨慎，还因为这是他给小孩上的人生第一堂社会关系课。为了解读它是值得下点功夫的。

解答：首先来简化一下这个两个小孩和一个奥特曼的故事。

假设我同学的小孩是A，另一个想要玩奥特曼的小孩是B，当他们只有一个奥特曼，可能有四种情况出现。A和B谈判，他们承诺轮流不受打扰地和奥特曼玩。如果他们都遵守承诺，这样他们可以分别和奥特曼快乐地度过半小时时光，那么他们的快乐得分分别是3分。但如果其中一人不遵守承诺，那么不遵守承诺的人可以独占奥特曼一个小时，他的快乐得分就是5允而另一个苦等对方放手的老实孩子得分是0。还有一种可能，两个人都想独占奥特曼，他们在一个小时的自由游戏时间里不断争抢，只是偶尔得到片刻和奥特曼独处的时间，这样他们两人的快乐得分都是1分。

如果这种假设还算合理，那么我们就把两个小孩和奥特曼的问题简化成了一个著名的“囚徒困境”问题。

当然了，即使奥特曼再也要不回来了，我同学的小孩也不会因此转到另外一个幼儿园，他还要继续和“骗走”奥特曼的小家伙相处。所以这种相处将成为一个重复的囚徒困境问题——所谓重复囚徒困境，就是你和对手随着时间的推移，要一次次地约定和博弈。对于幼儿园小朋友来说，基本上要持续到上学年龄吧——他现在才3岁半。

我们要解答的问题就是，我同学的小孩在这个有30多人的班级的一次次囚徒困境的博弈中（和不同的小朋友的若干次博弈），如何才能使自己的快乐得分最高——这种方法也就是他和身边人相处的最佳原则。

美国密歇根大学的罗伯特·阿克塞尔洛德教授做过解决类似问题的试验。他召集他所知道的对囚徒困境问题有研究的人展开两次比赛。比赛方式是，参赛者提出自己应付重复囚徒困境的办法，并把它写成程序。然后，让这些程序单循环对抗，统计整个循环赛结束后各种解决办法程序的得分。

这个比赛第一届参赛选手是15个，第二届参赛选手是63个。而两次的冠军都由同一种办法获得。那其实是一种非常简单的办法，我们通常把它称作“一报还一报”。

所谓“一报还一报”的方式就是，在重复的囚徒困境博弈里，你重复对手在上一轮博弈中对你的态度。如果他上一轮采取独占的态度，那么在下一次你也采取独占的态度实施报复;如果他上一轮采取合作的态度与你共享奥特曼，那么在下一次，你也采取共享的态度。当然，“一报还一报”的办法在第一次和对方接触时是采取合作态度的，也就是先假设对方是讲道理守承诺的。

善良、乐观、懂得报复、学会宽容和原谅、待人逻辑简单清晰、不嫉妒、不爱占别人的小便宜——这是博弈论对人生的总结。

仁者无敌在阿克塞尔洛德教授组织的比赛中，名列前茅的都是一些被称为“善良”的办法。什么是“善良”，就是不首先对博弈的对手采取独占好处的行为。

不首先采取自私行为的方法之所以能够名列前茅，是因为这些善良的办法一旦相遇，都不首先自私和背叛，所以得分都会很高。假如博弈有30轮，两个“善良”的程序相遇时，它们的得分都会是90分。

乐观的人过得更好“一报还一报”的方法能取胜，另一个原因是，它是乐观的，也就是它在和对手第一次接触时假设对方是善意守承诺的。这其实很重要，因为很多解决重复囚徒困境的办法虽然善良，但是都会对背叛和独占行为展开报复。所以一个好的开始很可能是两个善良的人和谐相处的全部。

迅速的报复性对背叛和对方自私的行为一定要有反射很快的报复行为——这好像和传统的道德判断相违背，不过从博弈的结果来看，有报复性地和人相处的方式更健康，在增加自己的快乐得分方面也更有效。

在阿克塞尔洛德教授组织的比赛中，也有人采取更加宽容的处事方法，比如，连续两次或三次被背叛才报复。也正是因此，就会有一些聪明的小人利用这个机会来占便宜，他们从不连续背叛对手，只是在对方放松警惕时偶尔独占奥特曼。用更宽容的办法和这些小人相处就像冤大头，损失惨重。

懂得宽容和原谅“一报还一报”只是报复对方一次，在之后和对方博弈中就会重新开始，接受对方的善意和合作。这种宽容性让它比那些更严厉的报复者的快乐得分高很多。

在比赛中曾有一个被命名为“永远报复者”的程序，它的方案是善良乐观的，但是如果遭遇到一次对方的背叛和自私行为，在之后的博弈中它都会用背叛和自私展开报复。这么做看似很解恨，但是总体上，这种方式的得分并不高。因为凶狠的报复会招至别人同样凶狠的报复。它做得太过分了。

简单清晰“一报还一报”的逻辑简单明了，这也是它得分高的一个原因。

在参加比赛的专家中，有的人编写了非常复杂的解决方案程序。他们试图根据对手的决策猜测下一次对手所采取的策略。无疑，在这个问题上，他们想歪了。之所以这么说是因为，类似于重复囚徒困境的和人相处的问题不是零和博弈。如果双方合作，从长远来看，大家都会赢得更多。

在和人相处的时候，想得过多，因而对别人行为的反馈看上去有点莫名其妙，这在人际交往中其实得分并不占优势。把自己装扮得高深莫测，是种费力不讨好的愚蠢行为。

不要嫉妒，眼界放远一点最佳策略，“一报还一报”的方式执行起来会有个有趣的特点。采取“一报还一报”策略的人，在任何单一的一次重复博弈中，得分都是小于或等于对手的。

假如对方采取善良的策略，那么两个博弈的人应该同获满分;假如对方采取自私或者悲观的策略，“一报还一报”的得分就会比对方少3到5分——如果博弈的次数够多，这点分差根本算不了什么。

等到将和所有人博弈的得分相加，“一报还一报”策略的得分却是最高的。

这说明了个小问题，不要嫉妒你的博弈对手相比你暂时赚了点小便宜，要从整体看问题，毕竟“一报还一报”的得分是最高的。

不要试图占别人的小便宜无论是在上述的比赛里，还是在现实生活中，总有人会想尽办法占别人的便宜，并以此得意。這种占便宜的解决方案即使非常聪明，总体得分也不算高，在阿克塞尔洛德教授组织的比赛中，这种占便宜程序的最佳表现是在第二届比赛中获得第七。

为什么“聪明人”很难在长期的博弈中占到别人的便宜？

这是因为博弈的另一方同样是人，你努力占他的便宜，他也会想办法这么做。这有点像你把球踢向一面墙，你用的力气越大，它反弹回来的力量也越大。挖空心思在别人不注意的时候占便宜的思路是把别人物化了，忽视了对手在重复博弈中的报复和反馈。

总结一下，如果你在和别人相处时（或者也这么教导你的子女）采取“一报还一报”策略，那么你需要具备我上边说的7种特质：善良、乐观、懂得报复、学会宽容和原谅、待人逻辑简单清晰、不嫉妒、不爱占别人的小便宜。

这有点像上帝说的，但其实是行为经济学的总结——很可能它们有相通之处。

猜你喜欢

克塞尔洛德囚徒

最爱风景的画家——约瑟夫·马洛德·威廉·透纳

无角陶赛特羊和特克塞尔羊繁殖性能及生长性能的研究

机智的囚徒

瑞克塞尔（RECTICEL）宣布MDI货源短缺

博弈论告诉你，人生本该如此

猜你喜欢

杂志排行

第一财经的其它文章