第12章 好人终有好报
“好人垫后。”——这句俗语似乎来自棒球界,不过有些权威人士声称它有其他内涵。美国生物学家加勒特·哈丁(Garrett Hardin)用这句俗语来总结“社会生物学”或者“自私的基因”,其中的贴切不言而喻。在达尔文主义中,“好人”是那些愿意自身付出代价,帮助种群中其他成员个体,以此使他们的基因传到下一代的“人”。这么看来,好人的数目注定要减少,善良在达尔文主义里终将灭亡。这里的“好人”还有另一种专有解释,和俗语中的含义相差并不远。但在这种解释里,好人则能“得好报”。在这一章节里,我将阐释这个相对乐观的结论。
想想第10章里的斤斤计较者。那些鸟儿显然以利他的方式互相帮助,但对那些曾经拒绝帮助他人的鸟,它们却怀恨在心,以牙还牙地拒绝给予帮助。比起傻瓜(那些无私奉献却遭遇剥削的个体)和骗子(那些互相无情剥削而共同毁灭的个体),斤斤计较者在种群中占优势,因为它们可以将更多基因传递给后代。斤斤计较者的故事表达了一个重要原则,罗伯特·特里弗斯将此称为“互惠利他理论”。在清洁工鱼(第10章)的例子里,互惠利他不仅局限于单个物种,还存在于所有共生关系中。类似的例子还有蚂蚁为它们的“奶牛”蚜虫挤“奶”(第10章)。当第10章写就时,美国政治科学家罗伯特·阿克塞尔罗德将互惠利他的概念延伸至更为激动人心的方向。阿克塞尔罗德曾与威廉·唐纳·汉密尔顿合作,后者的名字在这本书里已经出现无数次了。开篇已经暗示过,正是阿克塞尔罗德赋予了“好人”一个专有含义。
如同许多其他政治科学家、经济学家、数学家与心理学家一样,阿克塞尔罗德对“囚徒困境”这一简单的博弈游戏很感兴趣。这个游戏极其简单,但我知道许多聪明人完全误解了游戏,以为其复杂无比。不过,它的简单也带有欺骗性。图书馆里关于这个博弈衍生物的书籍多如牛毛。许多有影响力的人认为它是解决战略防御规划问题的钥匙,这个模型需被仔细研究,以阻止第三次世界大战的发生。而作为一个生物学家,我站在阿克塞尔罗德与汉密尔顿一边。许多野生动物和植物正以其演化进程,精确无误地进行着“囚徒困境”的博弈。
在其原始的人类版本中,“囚徒博弈”是这样的:一个“银行家”判定两位玩家的输赢,并付与赢家报酬。假设我们便是这两位玩家,当我们开始博弈时(虽然我们将看到,“对立”是我们最不应该做的),我们手中各有两张卡,分别为“合作”与“背叛”。我们各自选定一张牌,面朝下摆放在桌子上,这样我们都不知道对方的选择,也不会为对方选择所影响,这便等同于我们同时行动。然后我们等待“银行家”来翻牌。我们的输赢不仅取决于我们出的牌,还取决于对方打出的牌。其悬念在于:虽然我们清楚自己的出牌,却并不知道对方的出牌。我们都只能等“银行家”来揭晓结果。
我们一共有2×2=4张牌,于是也便有4种可能的结果。为向这个游戏的发源地——北美致敬,我们以美元来表示这4种输赢结果。
结果1:我们俩都选择了“合作”。“银行家”给我们每个人300美元。这个不菲的总数是对相互合作的奖赏。
结果2:我们俩都选择了“背叛”。“银行家”对每个人罚款10美元。这是对相互背叛的惩罚。
结果3:你选择“合作”,我选择“背叛”。“银行家”付给我500美元(这是背叛的诱惑),罚了你(傻瓜)100美元。
结果4:你选择“背叛”,我选择“合作”。“银行家”将背叛的诱惑付给了你,而罚了我这个傻瓜100美元。
结果3与4明显互为镜像。一个玩家得到好处,则有另一个玩家将付出代价。在结果1与2里,我们俩得到相同的结果,而结果1对我们俩都有好处。这里金钱的具体数目并不要紧,重要的是这个博弈里“囚徒困境”结果的排列顺序:背叛的诱惑>相互合作的奖赏>相互背叛的惩罚>失败的代价。(严格来说,这个博弈还有另一个条件:背叛的诱惑与失败的代价的平均值不可高于相互合作的奖赏。我们将在后边附加条件里提到这个原因。)这四种结果总结于表12-1里。
表12-1 我在囚徒困境博弈里各种结果的输赢状况
那么,为什么这是一个“困境”?看看这张输赢状况的表格,想象一下我在与你博弈时脑海中盘旋着的想法。我知道你只有两张牌,“合作”或者“背叛”。让我们按次序来想想。如果你打出“背叛”(这表示我们将看向表格中的右边一列),我能打出最好的牌也只能是“背叛”。虽然我也将接受相互背叛的惩罚,但我知道,如果选择了“合作”,失败者的代价只会更高。而如果你选择了“合作”(看向左边一列),我最好的结果也只能是选择“背叛”。如果我们合作了,我们都能得到300美元;但如果我选择背叛,我将得到更多——500美元。这里的结论是:无论你选择哪张牌,我最好的选择是永远背叛。
我已经运用我无懈可击的逻辑算出,无论你如何选择,我都必须“背叛”。而你,也将算出同样的结果。于是当两个理性的对手相对时,他们将同时背叛,也将同时被罚款,获得一个较低的分数。虽然每个人都心知肚明,如果他们彼此选择“合作”,两人都将得到较高的相互合作的奖赏(我们的例子里是300美元)。这就是为什么这个博弈被称为困境,自相矛盾得令人恼火。这也就是为什么人们开始提出必须有一个法律来对付这个问题。
“囚徒”来自一个特殊的、想象中的例子,上述例子中的现金被监狱的刑罚取代。两个在监狱中的囚徒——姑且称他们为彼得森与莫里亚蒂,有共同犯罪的嫌疑。囚徒们各自被关押在单独的牢房里,并各自被劝诱背叛他的同伙,将所有犯罪证据栽赃对方。他们的判决结果将取决于两个囚徒的行为,而双方都不知道对方的选择。如果彼得森将所有罪过都推向莫里亚蒂,而莫里亚蒂始终保持沉默(与他从前的朋友、现在的叛徒合作),莫里亚蒂将接受重罚,而彼得森得以无罪释放,享受背叛的诱惑。如果两人互相背叛,便都将获罪,但可以因为供认不讳而得到轻判,这便是互相背叛的惩罚。如果两人互相与对方而不是当局合作,闭口不谈过往,所得证据将不足以把两人判以重罪,则两人也都将得到轻判,得到互相合作的奖赏。虽然将牢狱刑罚称为“奖赏”有点儿奇怪,但比起漫长的铁窗生涯,犯人们肯定会将此看作奖赏的。你可以发现,虽然这里的回报不是美元而是牢狱刑罚,博弈的主要特征依然保存着(看看四个结果可取性的排列顺序)。如果你将自己放在任何一个囚徒的位置上,假设两人都以理性的自我利益为动机,你将看到两人都只能背叛对方,而同样接受沉重的刑罚。
有没有逃离困境的方法呢?双方都知道,无论对方如何选择,他们能做出的最好的选择都是“背叛”。但他们也都知道,如果双方都选择合作,任何一方都可以得到更多的好处。如果……如果……如果能有一个办法让他们达成共识,能有一个办法让双方都坚信对方可以被信任,不至于奔向那个自私的奖赏,能有一个方法来维持双方共识……
在“囚徒困境”这个简单博弈里,没有任何方法可以达成信任。除非其中一方是一个虔诚的傻瓜,善良得根本不可能适应这个世界,这个博弈注定将以相互背叛、相互损伤告终。然而,这个博弈还有另一个版本:“重复博弈”的“囚徒困境”。这个“重复博弈”更为复杂,但复杂性里孕育着希望。
“重复博弈”只是简单将上述博弈与同一个对手无限次重复。你我再次在“银行家”面前左右相对,再次拥有手中的两张牌——“合作”与“背叛”,我们再次各自打出一张牌,由“银行家”根据上述规则给出奖赏与惩罚。但这一次对弈不再是博弈的终结,我们捡起手中的牌,准备着下一轮。下一轮的游戏给予我们机会来重新建立信任与怀疑,实施对抗或和解,给予报复或宽恕。在这无限长的博弈里,我们最重要的任务是:赢了“银行家”,而不是对方。
在10次博弈后,理论上我也许可以获得最多5000美元,但只有在你完全愚不可及,或者大公无私地每次都打出“合作”的时候,我才有可能每次都得到最高奖赏“背叛的诱惑”。在更实际一点儿的情况里,我们各自都在10次对弈中打出“合作”,并各自从“银行家”里得到3000美元。这样,我们并不需要特别大公无私,因为我们彼此都能从对方过往的行为中,知道对方可以信任。我们事实上也在监管着对方的行为。还有另一个也可能发生的结果,我们彼此不信任对方,在10次对弈中都打出了“背叛”,“银行家”则从每个人处得到了100美元。最可能发生的是,我们并不完全信任对方,打出了各种次序的“合作”与“背叛”,双方都得到了并不多的金钱。
在第10章中,那些互相从对方羽毛中捉出蜱虫的鸟,正是进行一场“囚徒困境”的重复博弈。这怎么进行呢?你应该还记得,对于鸟来说,从自己身上清除蜱虫非常重要,但它无法自己清除头部的蜱虫,只能依靠同伴来帮助它,而让它同样报答对方也是公平的。但这项工作耗费了许多时间精力,鸟类在这方面并不宽裕。如果某只鸟能以欺骗方式从这个小圈子中逃出来,让别人清除自己的蜱虫,而拒绝互惠互利,它则能得到所有实惠,而不需支付任何代价。如果你将这些回报结果排列一下次序,你将发现这正是真实的“囚徒困境”博弈。互相合作以清除彼此的蜱虫固然是好事,但还有着更好的诱惑促使你拒绝支付互惠的代价。互相背叛以拒绝清除蜱虫固然不是好事,但也没有比花精力帮别人除虫而自己无人理睬更不好。表12-2展示了这个回报结果。
表12-2 鸟类清除蜱虫的博弈:我从各种结果中得到的回报
但这只是一个例子。如果你继续思考,你更会发现,从人类到动植物,生活中充满了“囚徒困境”的重复博弈。植物?是的。记得我们谈到策略时,我们没有提到有意识的策略(但我们之后可能会提及),但我们提及了“梅纳德·史密斯”的意识,这便是一种预定基因的策略。我们之后还会提到植物、动物甚至细菌,它们都在进行着“囚徒困境”的重复博弈。现在,先让我们详细探索一下,为何重复博弈如此重要。
在简单博弈里,我们可以预见“背叛”是唯一的理性策略。但重复博弈并不相同,它提供了许多选择范围。简单博弈里只有两种策略,合作或是背叛。但重复博弈可以有很多我们想象得到的策略,并没有任何一个是绝对的最佳方案。比如“大部分时间合作,而在随机的时间里背叛”这个策略,便是成千上万的策略里中的一个。也可以基于过往历史来选择策略,我的“斤斤计较者”正是一个例子。这种鸟对脸部有很好的记忆力,尽管它基本采取合作策略,但它也会背叛那些曾经背叛过它的对手。还有一些其他策略可能更为宽容,或者有更短期的记忆。
显然,重复博弈里可用的策略之多取决于我们的创造力。但我们能够算出哪个是最佳方案吗?阿克塞尔罗德也这么问自己。他想出了一个很具娱乐性的方案:举行一场竞赛。他广发通知,让博弈论的专家们来提交策略。在这里,策略指的是事先确定的行动规则,所以竞争者可以用计算机语言编程加入博弈。阿克塞尔罗德总共收到了14个策略。为了得到更好的结果,他还加了第15个策略,取名为“随机”。这个策略只是简单地随机出“合作”或“背叛”牌,基本等于“无策略”。如果任何一个其他策略比“随机策略”的结果更坏,这一定是个非常差的策略。
阿克塞尔罗德将这15个策略翻译成一种常用的计算机语言,在一台大型计算机中设定这些策略互相博弈。每个策略轮流与其他策略(包括它自己)进行重复博弈。15个策略总共组成15×15=225个排列组合,在计算机上轮番进行。每一个组合需要进行200回合的博弈,所有输赢累积计算,以得出最终的赢家。
这里,我们不关心某一个策略是否优于另一个策略,我们只关心哪个策略在与15个对手博弈后,最终赢得最多的“钱”。在这里,“钱”指的是赢得的分数。相互合作的奖赏为3分,背叛的诱惑为5分,互相背叛的惩罚为1分(相当于我们早先例子中的轻判),失败的代价为0分(等同于之前例子中的重罚)。
表12-3 阿克塞尔罗德的计算机竞赛:我在各种结果中所得的回报
无论是哪一种策略,理论上它们能得到的最高总分都是15000分(每一回合5分,15个对手共有200回合),最低分则是0分。不用说,这两个极端都没有实现。实际上,一个策略如果能超过15个对手中的平均水平,最多也只能获得比600分高出一些的分数。因为如果双方决定持续合作,每人在200场博弈中都能得到3分,总共便是600分。我们可以将600分作为基准分,将所有分数表达为600分的百分比。这么算来,理论上面对一个对手的最高分将是166%(1000分)。但事实上,没有任何一个策略的平均分超过600分。
要知道,竞赛中的博弈者并不是人类,而是计算机事先设定好的程序。而基因在这些程序的作者里事先设定了“程序”,使得它们身体力行地扮演同样的角色(想想第4章中的计算机对弈与“仙女座”超级计算机)。你可以将这些策略想象成这些作者的微型代理。虽然一个作者原本可以提交一个以上的策略,但这其实是作弊,这表示作者将在竞争本身中加入策略,使得其中一个角色从另一个角色的牺牲中得到合作的好处。阿克塞尔罗德应该不会接受这一点。
有一些交上来的策略很聪明,当然它们远没有其作者聪明。然而,最后胜出的策略却是一个最简单的,而且看起来最不聪明的一个。这个策略被称为“针锋相对”(Tit for Tat),它来自多伦多一位著名心理学家和博弈学家阿纳托尔·拉波波特(Anatol Rapoport)教授。这个策略在第一回合时采取合作行动,然后在接下来的所有步骤里,只是简单复制对手上一步的行动。
有了“针锋相对”策略的博弈将如何进行呢?一如寻常,下一步的出牌完全取决于对手。假设另一对手也选择了“针锋相对”的策略(每一个策略不止与其他14个对手竞争,也与自己博弈),双方都选择以“合作”开场,第二步中,双方都复制对方上一步的策略,仍然采取“合作”。这样,博弈双方持续合作,直到游戏结束,双方都能获得100%的600分基准分。
那么,假设“针锋相对”与另一个策略“老实人探测器”(Naive Prober)开始博弈。事实上,“老实人探测器”并没有出现在阿克塞尔罗德的博弈竞赛中,但它依然是一个富有指导性的策略。这个策略基本等同于“针锋相对”,但每隔一会儿,比如在每十步中任意选择一步,这个策略会打出恶意的“背叛”牌,而获得最高的分数“背叛的诱惑”。如果“老实人探测器”不打出其试探的“背叛”牌,博弈双方便是两个“针锋相对”,打出一场漫长且互利的“合作”牌,彼此安稳地获得100%的基准分。但突然间(假设在第8回合),“老实人探测器”出其不意地“背叛”了,“针锋相对”却依然不知情地坚持“合作”,也便只能付出“失败者的代价”,得到0分,而“老实人探测器”能得到最高成绩5分。但在下一步里,“针锋相对”开始报复,复制了对手上一步的行动,打出了“背叛”牌,而“老实人探测器”盲目地继续原本设定的程序,复制对手上一步的“合作”牌,于是它只能获得0分,而“针锋相对”得到5分。再下一步,“老实人探测器”极其不公正地又开始了报复,“背叛”了“针锋相对”。反之亦然。在每一轮交替报复的回合里,双方各自平均获得2.5分(5分与0分的平均值)。这依然低于双方持续双向合作所能轻而易举获得的3分(这也是本章前文中尚未解释的“特殊情况”的原因)。于是,当“老实人探测器”与“针锋相对”开始博弈,双方都未能获得两个“针锋相对”博弈时所得的分数。而如果“老实人探测器”互相对弈,其结果只可能更坏,因为这种以牙还牙的冤冤相报可能开始得更早。
让我们再来考虑另一个叫“愧疚探测器”(Remorseful Prober)的策略。这个策略有点类似于“老实人探测器”,但它可以主动终止循环于双方间的交互背叛。这便需要一种比“针锋相对”或“老实人探测器”更长的记忆。“愧疚探测器”能记住自己是否刚刚主动“背叛”,或者只是为了报复。如果是后者,它便“愧疚地”让对手得到一次反击的机会,而不加以报复。这便将此循环报复行为终结在萌芽状态。如果你在想象中旁观“愧疚探测器”与“针锋相对”的博弈,你会发现可能的循环报复行动不攻自破。博弈中大部分时间都采取互相合作,使得双方都能获得相应的高分。在与“针锋相对”的博弈中,“愧疚探测器”能获得比“老实人探测器”更高的分数,但依然没有“针锋相对”与自己对弈的分数高。
阿克塞尔罗德的竞赛里还有一些比“老实人探测器”与“愧疚探测器”更为复杂的策略,但它们平均分都比“针锋相对”低。事实上最失败的策略(除了随机)是最复杂的那一个,作者为“匿名”。这个作者的身份引发了一些饶有兴趣的猜测:五角大楼的高层?中央情报局的首脑?国务卿基辛格?阿克塞尔罗德自己?我们也许永远也不会知道。
不是每个策略的细节都值得研究,这本书也不谈计算机程序员的创造力,但我们可以给这些策略归类,并检验这些类别的成功率。阿克塞尔罗德认为,最重要的类别是“善良”。“善良”类别指的是那些从不率先“背叛”的策略。“针锋相对”便是其中一个例子。它虽然也采取“背叛”的行动,但它只在报复中这么做。“老实人探测器”与“愧疚探测器”也偶尔采取“背叛”,但这种行为是主动起意挑衅的,属于恶意的策略。这场竞赛中的15个策略中,有8个属于“善良”策略。令人吃惊的是,策略中的前8名也是这8个善意的策略。“针锋相对”的平均分504.5分,达到我们600分基准分的84%,是一个很好的分数。其他“善良”策略所得分数要比“针锋相对”少一些,从83.4%到78.6%不等。排名中接下来的则是由格雷斯卡普(Graaskamp)所获得的66.8%,与高分们有很大差距,而这已经是所有恶意策略中的最高分了。令人信服的结果表明,好人在这个博弈中可以胜出。
阿克塞尔罗德提出的另一个术语则是“宽容”。一个宽容的策略只有短期记忆。虽然它也采取报复行为,但它会很快遗忘对手的劣迹。“针锋相对”便是一个宽容的策略,面对“背叛”时它毫不手软,但之后则“过去的让它过去”。第10章中的“斤斤计较者”则是一个完全相反的例子,它的记忆持续了整个博弈,永不宽恕曾经背叛过它的对手。在阿克塞尔罗德的竞赛中,有一个策略与“斤斤计较者”完全相同,由一位名叫弗里德曼(Friedman)的选手提供。这一个“善良”而绝不宽恕的策略结果并不算佳,成绩在所有“善良”策略里排倒数第二。即便对手已经有悔改之意,它也不愿意打破相互背叛的恶性循环,因此无法取得很高的分数。
“针锋相对”并不是最宽容的策略。我们还可以设计一个“两报还一报”(Tit for Two Tats)的策略,允许对手连续两次背叛后才开始报复,这似乎显得过分大度坦荡了。阿克塞尔罗德算出,只要在竞赛中有“两报还一报”策略的存在,它便一定会获得冠军,因为它可以有效避免长期的互相伤害。
于是,我们算出了赢家策略的两个特点:善良与宽容。这几乎是一个乌托邦式的结论:善良与宽容能得到好报。许多专家曾试图在恶意策略里耍点儿花招,认为这可能得到高分。即使那些提交“善良”策略的专家,也未曾敢如“针锋相对”一般宽容。所有人都对这个结论十分惊讶。
阿克塞尔罗德又举办了第二次竞赛。这次他收到了62个策略,再加上随机策略,总共便有了63个策略。这一次,博弈中的回合数不再固定为200,而改为开放式的不定数(我之后会解释这么做的理由)。我们依然将得分评判为基准分“永远合作”分数的百分比,不过现在基准分需要更为复杂的计算,并不再是固定的600分。
第二次竞赛的程序员们都得到了第一次竞赛的结果,还收到了阿克塞尔罗德对“针锋相对”与善良、宽容策略获胜的分析。这么做是为了让参赛者们能从某种方向上了解比赛的背景信息,来权衡自己的判断。事实上,这些参赛者分成两种思路。第一种参赛者认为,已经有足够证据证明善良与宽容确实是获胜因素,他们便随即提交了善良与宽容的策略。参赛者约翰·梅纳德·史密斯提交了一个最为宽容的“三报还一报”(Tit for Three Tats)的策略。另一组参赛者则认为,既然对手们已经读过了阿克塞尔罗德的分析,估计都会提交善良宽容的策略。他们于是便提交了恶意的策略,以期在善意对手中占到便宜。
然而,恶意再一次没有得到好报。阿纳托尔提交的“针锋相对”策略再一次成为赢家,获得了满分的96%。善意策略再一次赢了恶意策略。前15名中只有一个策略是恶意策略,而倒数15名中只有一个是善意策略。然而,最为宽容的、可以在第一次竞赛中胜出的“两报还一报”策略,这次却没有成功。这是因为本次竞赛中有了一些更为狡猾的恶意策略,它们善于伪装自己,无情地抛弃那些善良的人。
这揭晓了这些竞赛中非常重要的一点:成功的策略取决于你的对手的策略。这是唯一能解释两次竞赛中的不同结果的理由。然而,就像我之前说过的那样。这本书并不是关于计算机程序员的创造力的,那么,是否有一个广泛客观的标准来让我们判断,哪些是真正好的策略?前几章的读者们估计已经开始准备从生物进化稳定策略理论中寻找答案了。
当时的我也是阿克塞尔罗德传播早期结果的小圈子中的一员,我也被邀请在第二次竞赛中提交策略。我并没有参赛,但我给阿克塞尔罗德提了一个建议。阿克塞尔罗德已经开始考虑进化稳定策略这个理论了,但我觉得这个想法太重要了,于是写信给他建议,让他与汉密尔顿联系一下。虽然当时阿克塞尔罗德并不认识汉密尔顿,但汉密尔顿正与阿克塞尔罗德在同一所大学——密歇根大学的另一个系里。阿克塞尔罗德迅速联系了汉密尔顿。最终,他们合作的结果是一篇卓越的论文,发表在1981年的《科学》杂志上,也获得了美国科学促进会(AAAS)的纽科姆·克里夫兰奖(Newcomb Cleveland Prize)。阿克塞尔罗德和汉密尔顿除了讨论重复“囚徒困境”在生物学上有趣的例子外,我还觉得他们给予了进化稳定策略方法应有的认可。
让我们来比较一下进化稳定策略与阿克塞尔罗德两次竞赛中的“循环赛”机制。循环赛好比足球联盟中的比赛,每一个策略都与其他策略对战同等次数。策略的最后得分则是它与所有其他策略对弈后的所得总分。如果一个策略想要在竞争中成功,它必须在所有提交的策略中最富有竞争力。阿克塞尔罗德将胜过其他对手的策略定义为“强劲”。“针锋相对”便是一个强劲的策略。但参与竞赛的策略对手们则相当主观,只取决于参赛者所提交的策略水平,这一点使我们相当头疼。阿克塞尔罗德的第一个竞赛里,刚好参赛的策略基本都是善意策略,所以“针锋相对”赢得了竞赛,而如果“两报还一报”参赛了,则会赢了“针锋相对”。但如果几乎所有参赛策略都为恶意策略,情况就不同了。这个假设发生的概率还是很大的,毕竟人们提交的14个策略中有6个是恶意策略。假如13个策略全为恶意策略,“针锋相对”则不可能成功,因为“环境”太差了。提交策略的不同,决定了策略所赢得的金钱和它们的排名位置。也就是说,竞赛结果将取决于参赛者的心血来潮。那么,我们如何减少竞赛的主观性呢?答案是:进化稳定策略。
你也许还记得,进化稳定策略在众多的种群策略中占有许多席位,也一直得到不错的结果。如果说“针锋相对”是一种进化稳定策略,这便是说,“针锋相对”策略在充满“针锋相对”策略的大环境下能得到不错的结果。这便是一种特殊的“强劲”。作为进化论者,我们一直很想找到一种唯一的、可以直接决定结果的“强劲”。为什么这很重要呢?因为在达尔文主义的世界里,成功并不是赢得金钱,而是获得后裔。对于一个达尔文主义者,一个成功的策略将是一个在策略种群中数量众多的策略。如果这个策略要保持成功,它必须在同类众多时——也就是充满了自身拷贝的大环境中得到特别好的结果。
阿克塞尔罗德又模仿自然选择,进行了第三场竞赛来寻找进化稳定策略。事实上,他并没有称之为第三次竞赛,因为他并没有邀请新的参赛者,而只是使用了第二次竞赛中的63个策略。但我觉得称它为第三次竞赛比较合适,因为它和前两次“循环赛”有根本性的不同。
阿克塞尔罗德将这63个策略再次丢给计算机,来制造进化演替的“第一代”。“第一代”的大环境中由这63个策略组成。结束后,赢家不再得到“金钱”或者“分数”,而是与其完全相同的“后代”。世世代代如此传递,一些策略逐渐变得数目稀少,甚至完全绝迹,另一些策略则数目众多。当环境中策略的比例出现变化,博弈中策略的出牌也在随之变化。
最终在1000代之后,种群不再变化,环境也没有再改变,稳定的状态已经形成。在此之前,各种策略的命运起伏不定,正如我模拟的“骗子”“傻瓜”和“斤斤计较者”的命运一样。一些策略在博弈开始便已经灭绝,大多数则在200代之后彻底灭绝。在那些恶意策略中,有一两个一开始蓬勃发展,但它们的繁荣正如我的模拟预测一样,只是昙花一现。唯一活过200代的一个策略叫作“哈灵顿”(Harrington),它的数目在前150代中直线上升,而后逐渐减少,在1000代之后终于完全灭绝。“哈灵顿”短期繁荣的原因跟我的“骗子”是一样的。当那些如“两报还一报”之类的老实人(过于宽容)还在世时,它欺负它们以获得发展。但在这些老实人消失之后,“哈灵顿”失去了猎物,也跟随着它们的命运而灭绝。剩下的策略都类似于“针锋相对”,既善良又容易被煽动报复。
“针锋相对”本身在第三轮竞赛中,6次中有5次得了第一,重复其在第一、二次竞赛时的好运。另外5个虽善良但容易报复的策略则几乎和“针锋相对”一样成功(在种群数目上),还有一个策略甚至赢了第6次博弈。当所有恶意策略都灭绝后,所有的善良策略与“针锋相对”都无法辨认彼此了,因为它们都很善良,只是简单地与所有对手“合作”到底。
这种“无法辨认”的情况使得“针锋相对”在严格意义上不是一个真正的进化稳定策略,即使它看起来确实很像。一个策略要成为进化稳定策略,意味着当它是常见策略时,它不可被少数变异策略同化。虽然“针锋相对”不会被任何恶意策略同化,但另一个善良策略可能做到。正如我们所看到的,在善意策略的群体里,它们面目模糊,行为相同,始终“合作”。因此,有一些其他善良策略,比如“永远合作”这种选择优势不如“针锋相对”的策略,也可以溜进种群里而不被发现。所以严格地说,“针锋相对”并不是进化稳定策略。
你也许会认为,如果世界充满善良,我们便可以认为“针锋相对”是一个进化稳定策略了。但即使如此,接下来的故事也并不如意。“永远合作”与“针锋相对”不同,它并不能抵挡一些恶意策略的入侵。比如,“永远背叛”的攻击便可以打败“永远合作”,它可以每次都得到“背叛诱惑”的最高分。类似“永远背叛”这样的恶意策略会减少过分善良策略的数目,比如“永远合作”。
虽然严格来说,“针锋相对”并不是一个真正的进化稳定策略,但在实际操作中,将这一类基本善意又宽容、与“针锋相对”类似的策略近似看作进化稳定策略,也是可行的。这一类策略里甚至可以包括一小部分恶意策略。阿克塞尔罗德的研究后继有人,罗伯特·博伊德与杰弗里·洛伯鲍姆的研究成果是这些后续研究中最为有趣的。他们将“两报还一报”与另一个“针锋相对多疑版”(Suspicious Tit for Tat)的策略组合到一块儿。“针锋相对多疑版”近似于“针锋相对”,但本质上是一个恶意策略,虽然恶意程度不高。它只在第一回合采取“背叛”行动,之后的所有出牌与“针锋相对”完全相同。在一个“针锋相对”占主要地位的环境中,“针锋相对多疑版”并不走运,因为它的先行背叛导致了互相背叛的恶性循环。但当它遇上了“两报还一报”时,这场冤冤相报因对方的慈爱宽恕化解了,双方都能至少得到满分,而“针锋相对多疑版”还会因为其最初的背叛而获得更高的分数。博伊德和洛伯鲍姆的研究结果表明,“针锋相对”的群体可以被“两报还一报”与“针锋相对多疑版”的组合入侵影响。从进化论角度上说,则是“两报还一报”与“针锋相对多疑版”共生繁荣,进而影响了“针锋相对”的种群。几乎可以肯定,这种组合不仅不会消亡,还会以这种方式入侵相对稳定的种群。事实上,也许还有很多其他稍微恶意与极度圣洁策略的组合可以入侵种群。有人也许可以从这里看到人类生活的对照。
阿克塞尔罗德意识到“针锋相对”并不是严格意义上的进化稳定策略。于是他又创造了一个术语:集体稳定策略。由于在真正的进化稳定策略中,可以有不止一个策略同时达成集体稳定,另一方面,决定一个策略是否可以控制种群更取决于其运气,因此“永远背叛”的策略也可以和“针锋相对”一样稳定。在一个被“永远背叛”控制了的种群中,没有任何其他策略可以取胜。我们也可以将这种系统称为“双稳态”,而将“永远背叛”作为其中一个稳定点,“针锋相对”(或者其他最善良宽容策略的组合)为另一个稳定点。无论哪一方首先在种群中达到数量优势,都将继续保持稳定。
然而,这个数量优势如何量化?一个群体中,究竟需要多少“针锋相对”来保证其战胜“永远背叛”?这取决于“银行家”愿意在这场博弈中付出的具体数额。我们可以将此概括为一个决胜点。如果“针锋相对”可以超过这个决胜点,自然选择便会愈加偏爱“针锋相对”。另一方面,如果“永远背叛”超出了这个决胜点,自然选择则会更加偏爱它。你也许还记得,我们在第10章斤斤计较者与骗子的故事里,也曾与这个决胜点相遇过。
于是,获胜的关键显然取决于哪一方首先超过决胜点,而且我们还需要知道,有时主导种群还会变化,从一方变成另一方。我们假设现有的种群已经由“永远背叛”主导了,少数派的“针锋相对”难以互相碰面以获得共享利益。自然选择于是将该种群推向了“永远背叛”的极致。只有该种群通过随机转换,使主导的一方变为“针锋相对”,它才能继续推进“针锋相对”的发展,使得所有人都能从“银行家”(或者自然)处得到利益。然而,种群没有集体意愿,也没有集体意识或目的,它们不能控制发展走向。主导方的转换只能发生在自然界间接力量的作用下。
这种情况如何发生呢?一种回答是“运气”。但这个单词只能显示无知。它表示“由一些尚未知道、未能分辨的方式来决定”。我们可以比“运气”做得更好一些。我们可以想象少数派的“针锋相对”个体如何通过一个实际方法来增加其关键数目,探索“针锋相对”个体如何集合成足够的数量,使它们都可以从“银行家”处得到回报。
这种想法貌似可行,但实际上机会渺茫。这些相似的个体如何在小范围内集合到一起?在自然界中,最明显的方式是因基因关系——亲属而集合。大多数动物喜欢同自己的兄弟姐妹与表亲们,而不是种群中其他成员居住在一起。这并不一定是出于选择,而是自动跟随种群中的“黏性”。这里的“黏性”指的是任何使个体持续居住于出生地的趋势。比如在人类历史上,大部分地区的人都只居住在出生地以外几英里的地方(虽然现代社会已经不再如此)。因此,以亲属关系为线索的小团体逐渐形成。我曾经到访过爱尔兰西海岸一个偏远的岛,令我吃惊的是,那里几乎所有人都拥有巨大的耳朵。其中的原因很难解释为大耳朵适应当地天气(那里岸边的风特别大),这只能是因为岛上大多数居民都是亲缘相近的亲属。
基因相近的亲属们不仅面部特征相似,其他方面也有相近之处。比如,他们会因其基因趋势而互相模仿着采用(或不采用)“针锋相对”。于是,即使“针锋相对”在种群整体中已经稀少,它依然可能在局部广泛使用。在这个小圈子里,“针锋相对”的个体可以互相博弈,采取互相合作的方式来达到数目繁荣,即使在总体计算里它们依然处于弱势地位。
由此,最初仅占领小片地区的“针锋相对”个体,将随着小团体的逐渐扩大,逐渐向其他地区分散,甚至包括“永远背叛”群体占主导的地区。如果用区域地理的方式思考,我举的爱尔兰岛的例子则有些误导,因为那里的人被自然地理隔绝了。想象另一个例子:在迁入人口不多的人群中,即使这片地区的人们已经有了广泛持续的亲缘关系,所有人也只复制近邻(而不是远邻)的行为。
回头看看,“针锋相对”是可以超越决胜点的,它所需的只是这些个体的聚合,这一点在自然选择里可以很自然地发生。这个与生俱来的优点使得“针锋相对”即使在数目稀少的时候,也可以成功跨越决胜点而获得成功。但这个跨越只是单向的。“永远背叛”作为一个真正的进化稳定策略,并不可以使用个体聚合来跨越决胜点。相反的是,“永远背叛”个体的聚合,不仅不能彼此互助而获得群体繁荣,还会使各自的生存环境更加恶劣。它们无法暗自帮助对方获得“银行家”的奖赏,而只能把对方也拖下水。于是与“针锋相对”相反,“永远背叛”在亲属或种群聚合中得不到任何帮助。
所以,即使“针锋相对”并非真正的进化稳定策略,它却拥有更高的稳定性。这意味着什么?如果我们用长远的目光来看,“永远背叛”可以在相当长的一段时间内抵制其他策略的影响,但如果我们等上很长一段时间,也许是几千年后,“针锋相对”将最终聚集到足够的数目,跨越决胜点,其数量终将反弹。而反方向的发展并不可能,“永远背叛”无法在个体聚集中获得好处,因此也无法得到这种更高的稳定性。
如我们之前所见,“针锋相对”是一个善良的策略,这表示它永远不会首先背叛。它又是一个宽容的策略,表示它对过往的恩怨只有短期记忆。阿克塞尔罗德对“针锋相对”还有另一个令人回味的定义:不嫉妒。在阿克塞尔罗德的定义中,嫉妒是希望获得比对手更多的金钱,而不是追求从“银行家”手中得到绝对数量较大的收获。“不嫉妒”表示当对手获得与你一样的金钱时,只要大家都能从“银行家”处获得更大收获,你也同样高兴。“针锋相对”从没有“赢得”比赛,它从未从其对手处获得更多的利益,因为它除了报复之外从未背叛。它能得到的最好结果是与对手分享平局,但它尽量争取在每一场对弈中都能获得尽量高的共享分数。当我们考虑“针锋相对”与其他策略时,“对手”一词其实并不准确。然而,令人失望的是,当心理学家在人群中实验重复囚徒困境的博弈时,几乎所有选手都会嫉妒,于是获得的金钱也并不多。这表示许多人在潜意识中更倾向于击败对手,而不是与他人一同合作击败“银行家”。阿克塞尔罗德的实验表明,这是一个多么严重的错误。
但在所有博弈里并不都是错误。博弈理论家将博弈分为“零和”与“非零和”两种。“零和博弈”指一方的胜出即是对方的损失。棋类游戏便是一种“零和博弈”,因为博弈双方的目标是胜过对方,使对方产生损失。囚徒困境则是一种“非零和博弈”,在这里,“银行家”支付了金钱,博弈双方可以携手合作,一起笑到最后。
这让我想起了莎士比亚写过的一句精彩的台词:
“我们要做的第一件事,就是把所有律师都先杀了。”
——《亨利六世》
在所谓“民事争议”中,事实上经常有很大空间可以合作。一个看似“零和博弈”的争议也许只要加入少许善意,便可以转化为双方互利的“非零和博弈”。下面拿离婚作为例子。一段好的婚姻明显是一个“非零和博弈”,充满了互助合作的空间。即使它瓦解,夫妻依然可以继续合作,以“非零和博弈”来看待离婚,并从中得到好处。如果孩子抚养权的判决问题并不是一个足够劝服夫妻合作的理由,双方律师的高昂费用也许更有说服力,因为它将给家庭财政造成巨大创伤。那么,如果一对理性文明的夫妻从一开始便一起雇用同一个律师,这是不是更合理呢?
答案却是否定的。至少在英格兰,还有今天美国几乎50个州中,法律——或者更严格地说,律师本身的职业规范并不允许他们这么做。律师只能接受夫妻双方中的一位作为客户,而拒绝另一方,迫使对方去寻找另一个律师,或者完全失去法律服务。这便是乐趣的开始。在另一个房间里,律师们开始谈“我们”和“他们”。这里的“我们”指的不是我和我的妻子,而是我和我的律师对抗她与她的律师。法庭上陈述的则是“史密斯诉史密斯”!(英国妻子多用夫姓。)无论夫妻双方是否感觉抗拒对方,或者他们是否愿意和睦解决问题,法庭已经假设他们之间存在对抗关系。谁能在这场“我赢你便输”的游戏里胜出呢?只有律师。
倒霉的夫妻被拖进了这么一场“零和博弈”中,律师们则可以享有油水肥厚的“非零和博弈”——因为史密斯夫妇提供了回报,而律师们专业剥削顾客的方式已经通过行业合作精细地被规范了。他们合作的一种方式是提出知道对方完全不会接受的提议,这可以激发对方提出另一个明知双方都不会接受的提议,循环往复。这些事实合作的“对手”所发的每一封律师函、每一个电话都在账单上多加一笔数目。运气不好的话,这个过程将持续几个月甚至几年,双方的花费越来越多。律师们并不需要坐在一起计算这些事情,相反,他们严格的独立性正是他们合作的主要方式,以此消耗着顾客的腰包。律师们甚至都没有感觉到他们所做的一切正是一个“非零和博弈”。就像我们有时见到的吸血蝙蝠一样,他们以一种精心设计的仪式进行着这场游戏。这个系统无须任何有意识的计划或者组织,已然自成一体。它逼迫我们走进一场“零和博弈”,顾客们得到了零,律师们得到了丰厚的非零。
我们该怎么做呢?莎士比亚的方法太过残酷,单单改变法律就简单多了。但大多数国会议员有法律背景,只有“零和博弈”心理。很难想象哪里存在比英国下议院更具对抗性的氛围了。(法庭至少还保持了辩论的斯文,因为律师们可以抱着“我博学的朋友将和我合作而笑到最后”的心理。)也许那些用心良苦的立法者和良心发现的律师需要学一点博弈论。只要律师以完全相反的方式工作,劝说顾客们放弃零和博弈的厮杀,就可以从庭外和解的非零和博弈中得到更多好处。
那么人类生活中的其他博弈呢?哪些是零和,哪些又是非零和?它们并不相同。我们应该在生活的哪些方面追求零和博弈,又在哪些方面追求非零和博弈呢?生活中哪些方面值得“嫉妒”,哪些又值得合作并打败“银行家”呢?举个例子,当我们和老板对工资讨价还价时,我们是被“嫉妒”驱使,还是通过合作让我们的真实收入最大化呢?在现实生活中,我们是否把“非零和博弈”误会为“零和博弈”,正如我们在那个心理实验中一样呢?我只能简单提出这些复杂的问题,因为他们的答案已经超出本书涵盖的范围了。
足球就是一场零和博弈。至少它一般是这样。少数情况下它能变成一个非零和博弈(英式橄榄球、澳大利亚橄榄球、美式橄榄球、爱尔兰橄榄球则一直是非零和博弈),这在1977年的英格兰足球联赛中发生过。联赛中的队伍被分为四级。俱乐部在比赛中互相对抗,以积分决定它们的晋级或降级。甲级联赛声名远扬,俱乐部可以趁机从巨大观众群中捞得丰厚利润。在赛季结束时,甲级中排名最后的3个俱乐部降级,进入下一赛季的乙级联赛。降级是一个惨痛的命运,值得不惜一切去避免。
1977年5月8日是本赛季的最后一天。甲级联赛中3个保级名额中的2个已经被确定,第三个正等待揭晓,它将从桑德兰队、布里斯托队与考文垂队中诞生。如果桑德兰队输了这场比赛,布里斯托与考文垂只要打成平手,便可以共同留在甲级联赛。但如果桑德兰赢了,布里斯托与考文垂比赛中的输家就会被降级。这两场关键比赛理论上是同时进行的。但事实上,布里斯托对考文垂的比赛刚好推迟了5分钟开始。这种情况下,桑德兰队的结果在布里斯托对考文垂的比赛结束前便为两队所知晓了。这便埋下了这个复杂故事的伏笔。
布里斯托与考文垂间的大部分比赛时间,用当时一份新闻报道来说,是“迅猛激烈”的,激动人心。赛前双方各自定下的2个进球的目标,在比赛80分钟时已经达到。比赛结束前2分钟时,桑德兰输了的消息迅速传了过来。考文垂的经理迅速让场边的巨大电子信息屏放出了这条消息。所有22名队员显然都看到并且意识到无须多事了,一个平局足以让双方都能逃避保级的命运。而如果试图进球会使情况更糟,这意味着把球员从防守转向进攻,将承担战败而降级的风险。我们还是引用那份新闻报道吧。“在唐·吉利斯(Don Gillies)80分钟时的进球帮助球队和布里斯托战成平手时,双方的支持者1秒钟前还是分外眼红的仇人,1秒钟后却迅速加入一场共同的狂欢庆祝中。裁判查利斯(Ron Challis)无奈地看着球员们把球传来传去,于对手完全没有任何威胁。之前的零和博弈在外界新闻的影响下迅速变成一场非零和博弈。在我们早先的讨论情况下,就好比外部的“银行家”奇迹般地出现了,使得布里斯托和考文垂从平局结果中得到好处。
类似足球这种观赏运动通常是零和博弈,理由是观看双方的剧烈对抗比友好比赛更为激动人心。但现实生活——无论是人类生活或者是植物、动物的生活中——并非为观众所设计。事实上,现实生活中的大部分情况都是非零和博弈,社会扮演了“银行家”的角色,个人则可以从对方的成功中获益。我们可以看到,在自私的基因的基本原理的指导下,即使在自私的人类世界里,合作与互助同样促使社会兴旺发展。我们现在可以从阿克塞尔罗德的定义出发去理解,好人确实有好报。
但这只能在博弈重复进行下才能发生。博弈者必须清楚这并不是他们之间最后一场博弈。用阿克塞尔罗德艰涩的用语来说,“未来的阴影”还很长。但这需要有多长?它不可以无限长。理论上说,博弈的长度并不重要,重要的是博弈双方必须都不清楚博弈结束的时间。假设你我正在进行一场博弈,我们都知道博弈的重复次数为100回合,那么我们彼此清楚,第100回合将等同于一场简单的一次性“囚徒困境”。这种情况下,最理性的决策是我们双方各自在最后一轮打出“背叛”。自然,我们也彼此能预测对方也会“背叛”,这使得最后一轮的结果毫无悬念。既已如此,第99轮则相当于一次性博弈,而双方能做出的唯一理性决策则是“背叛”。第98轮同理。在两个完全理性并假设对方同样理性的博弈者处,如果他们知道比赛的回合数,他们只能彼此不停“背叛”。于是当博弈理论家谈论“重复囚徒困境”时,他们经常假设博弈的终点不可知,或者只有“银行家”知道。
即使博弈的重复次数不得而知,在现实生活中,我们经常可以采用统计方法来预测博弈的持续时间长度。这种预测则成了博弈策略中很重要的一部分。如果我注意到“银行家”开始坐立不安,不停地看他的手表,我可以猜到此游戏即将结束,那么我便可以尝试背叛。如果我发现你也注意到银行家的坐立不安,我也会开始担心你背叛的可能性。我也许会过于紧张,而提前让自己先背叛,即使我开始担心你也许会担心我……
在一次性与重复囚徒困境博弈中,数学家简单的直觉也许太过于简单。每一个选手都可以持续预测博弈进行的长度。他的估计越长,他的选择就会越接近数学家在重复博弈中的预测,更善良,更宽容,更不嫉妒。反之,他的选择就会更接近数学家在一次性博弈中的预测,更恶劣、更不宽容。
阿克塞尔罗德对“未来的阴影”的重要性的阐述来自第一次世界大战时形成的“自己活,也让别人活”的现象。他的研究资源来自历史学家与社会学家托尼·阿什沃思(Tony Ashworth)。“一战”时的圣诞节,英军与德军有时会友好相处,在无人区一起喝酒。这种现象早已为世人所知。但事实上,更为有趣的是,这种非正式非官方,甚至没有口头协定的友好协议,这种“自己活,也让别人活”的系统,早在1914年便在前线上下流行,持续了至少2年。一个英国高级将领在巡视战壕时,曾提及他看到德国士兵在英军前线来复枪射程内散步时的惊讶:“我们的士兵好像并没有注意。我私下决定当我们接手它时,应该阻止这种事情的发生,决不能允许这种事情出现。这些人似乎并不知道这是一场战争。显然双方都相信‘自己活,也让别人活’的想法。”
博弈论与囚徒困境在当时还未出现,但如今在事后,我们可以清楚地理解当时的情况。阿克塞尔罗德提供了一个精彩的分析。在当时的壕堑战中,每个野战排的“未来的阴影”都很长。这便表示,每支英军的挖掘队伍都可能需要与同一支德军队伍对峙好几个月。另外,普通士兵永远不知道他们是否,或何时会离开,因为大家都知道军队的决策专断随意,变化无常。在这里“未来的阴影”长而不定,促使了“针锋相对”式合作的开始。这种情况已经类似于一场囚徒困境的博弈了。
我们还记得,要成为一场真正的“囚徒困境”,回报必须有特定的次序规则。双方必须同时认为共同合作优于互相背叛。在对方合作时背叛则为更佳,在对方背叛时合作为最劣。彼此背叛则是将军们所喜的,他们想看到他们的士兵在机会到来之时将对方捏得粉身碎骨。
将军们并不愿意看到互助合作的场面,这对于赢得战争毫无帮助。但这对于双方的普通士兵而言却是求之不得的好事,他们并不愿意付出生命的代价。必须承认,他们也许认可将军的观点,希望己方能获得胜利,这便是形成囚徒困境的第二层回报,但获得战争胜利并不是每个普通士兵的选择。战争的最终结果并不太可能从物质上极大地惠于个人。虽然无论是出自爱国主义抑或是遵守纪律,你可能觉得从背叛循环中逃出去也是不错的。但与你穿越无人区后的某些敌军士兵互助合作,则很可能影响你本人的命运,而且这大大优于互相背叛。这便使整个情况形成一个真正的囚徒困境。类似“针锋相对”的行为注定要发生,也确实发生了。
在任何战壕前线上的局部稳定策略并不一定是“针锋相对”,后者是属于善良,虽报复但宽容的策略家族中的一员。这些策略即使在理论上也并不完全稳定,至少很难在兴起时被改变。比如,根据一份当时的记录,三次“针锋相对”在一个区域同时形成。
我们走出深夜的战壕……德国人也走了出来,所以出于礼貌,我们不该开枪。最恶劣的事情是枪榴弹……它们如果落入战壕,就会杀死大概9~10个人……但除非德国人特别吵,否则我们不应该使用这些武器。因为他们也可以采取报复,我们也许没有一个人可以回去。
“针锋相对”家族中这些策略有一个很重要的共同点:背叛的选手将得到惩罚。复仇的威胁必须始终在此。在“自己活,也让别人活”系统中,报复能力的展示通常引人注目。双方不断攻击敌军不远处的虚拟目标——一种如今也在西方电影中使用的技巧,比如射灭蜡烛火焰,而不是敌军本身,以展示其百发百中、极具威胁的攻击。在另一个问题上——为什么美国罔顾顶尖物理学家们的愿望,使用了两颗原子弹来毁灭两座城市,而不是用类似攻击蜡烛的策略——这一机制也能圆满地回答。
与“针锋相对”类似的策略都有一个重要的特征:它们都很宽容。这有助于减少长期报复恶性循环的产生。这位英国军官再次戏剧化地描述这种平息报复的重要性:
当我正在与某连的人喝茶时,我们听到许多喊叫声,于是出来查看。我们看见我们的人与德国人各自站在战壕前的矮墙上。突然炮声骤响,却无人受伤。双方很自然地卧倒,我们的人开始咒骂德国人。这时一个勇敢的德国人站起身来大喊:“我们很抱歉,我们希望没有人受伤。我们不是故意的,都是那个该死的普鲁士大炮!”
阿克塞尔罗德对这个道歉的评价是:“仅将责任推卸给机械,有效阻止了报复。它表达了道德上对于辜负信任的歉意,也表达了对有人可能受伤的关切。这确实是一个令人钦佩的勇敢的德国人。”
阿克塞尔罗德还也强调,在保持互相信任的稳定状况时,预见性与仪式感十分重要。一个愉快的例子是:一个德国士兵提到,英国大炮每天晚上会根据钟点有规律地在前线一些地方开火:
七点钟到了,英国人开炮了。他们十分准时,你都可以据此来校正手表……他们永远有着相同的目标,非常准确,从未在前后左右偏移过标志……甚至有一些好奇的同伴……会在七点前一点爬出去看英国人开炮。
根据英军的记录,德国大炮也在做同样的事情:
(德国人)选择的目标、射击的时间与回合都十分规律……琼斯上校知道每一炮发出的时间。他的计算十分准确。他甚至敢于做一些初生牛犊式的行为,冒险去到炮击的地点。因为他知道炮击将在他到达前停止。
阿克塞尔罗德对此的评注是:“这种仪式性的炮击与规律性的开火表达了双重信息。于上级军官,它们表达了抗争,而对于敌军,它们传递了和平。”
这种“自己活,也让别人活”的系统本可以通过口头沟通获得,由理性的策略家在圆桌上讨价还价得到。事实上它无法这么做。它通过人们回应对方行为的方式传递,在一系列的局部约定中形成。阿克塞尔罗德计算机中的策略完全没有意识。它们的善意或恶意、宽容或记仇、嫉妒或大气,仅由其行为定义。程序员也许有其他的想法,但这并不相关。一个策略是否善良,仅通过行为确认,而并非通过其动机(因为它没有)或作者的性格(当程序运行时这已经成为历史了)。一个计算机程序可以以其策略方式来施为,它并不需要知道自己的策略如何,或者任何其他事情。
我们当然知道策略家是否有意识并不相关。这本书已经提到许多无意识的策略家。阿克塞尔罗德的程序便是我们在这本书里用以思考动植物,甚至基因的优秀模型。我们现在可以问问,他那些关于宽容善良不嫉妒的成功例子与优化结论是否可以用于自然世界?答案是肯定的,自然界一向如此。唯一条件是自然优势需要设定未来的阴影很长的囚徒困境,而且是非零和博弈。这些条件在生物王国中一直成立。
没有人会认为细菌是一个有意识的策略家,但寄生菌们天衣无缝地与它们的寄主演绎着囚徒困境。我们没有理由不采用阿克塞尔罗德的理论——善良、宽容、不嫉妒等等,来研究它们的策略。阿克塞尔罗德和汉密尔顿指出,那些无害且有益的细菌可以在人们受伤时,变成有害甚至致命的败血症。医生会说人体的“自然抵抗能力”在受伤时会下降。但也许真实的原因正是囚徒困境的博弈。在人体内,细菌是否有所收获,同时也不停检验其回报呢?在人体和细菌的博弈中,“未来的阴影”通常很长,因为一个普通人可以在任何起始点活上很多年。然而,一个严重伤者则可能给其寄生菌带来较短的未来。“背叛的诱惑”突然比“互相合作的奖赏”更有诱惑力。当然,细菌在它们邪恶的小头脑里可没有计算这些东西!代代细菌的自然选择已经将它们培养成一个无意识的生物,首要任务是以生物化学来维系生命。
根据阿克塞尔罗德和汉密尔顿的分析,虽然植物明显没有意识,但它们懂得复仇。无花果树和榕小蜂享有紧密合作的关系。我们所吃的无花果其实不是果实,无花果顶端有一个小洞,如果你可以缩小成榕小蜂的尺寸,进入这个小洞(榕小蜂非常小,小得当我们吃无花果时都不会注意到它),就可以看见无花果壁上有许许多多小花。无花果其实是花朵们的阴暗温室与授粉房间,而授粉过程要靠榕小蜂来完成。无花果树为榕小蜂提供栖息地,而榕小蜂在这些小花里产卵。对于榕小蜂来说,“背叛”指的是在无花果内的许多花朵中产卵,使得它们无法互相授粉。无花果树如何“报复”呢?阿克塞尔罗德和汉密尔顿说:“许多情况下,如果榕小蜂进入一棵年轻的无花果,却不为花朵授粉,而是在大部分花朵中产卵,无花果树将除去这颗还处于生长中的无花果,使得所有榕小蜂的后代都走向死亡。”
艾瑞克·费希尔则在海鲈鱼——一种雌雄同体的鱼身上发现了一个奇怪的现象,正好说明了自然界的“针锋相对”。与我们不同,这种鱼的性别不是由生命孕育时的染色体决定的。每一条鱼都有雄性与雌性的功能,交配时可以选择产生卵子或精子。他们双双缔结一夫一妻的组合,轮流交换性别分饰雌雄角色。我们也许可以推测,由于雄性角色相对方便,海鲈鱼也许更愿意饰演雄性角色,而逃离合作关系。也就是说,如果其中一条鱼可以成功劝服伴侣持续饰演雌性角色,它就可以逃离其对孵卵生产的责任,而将资源投入其他事情,比如和其他鱼交配等。
事实上,费希尔却发现海鲈鱼以一种严格的轮换机制进行其繁衍过程。这就是我们所预料的“针锋相对”。这个博弈正是一个真正的囚徒博弈,虽然有些复杂,但这说明了鲈鱼们为何采取这个策略。在这里,“合作”表示在轮到其产卵时扮演雌性角色,“背叛”则是在轮到时试图扮演雄性角色。这种“背叛”很容易引起报复,伴侣可能会在下一次拒绝扮演雌性角色,或者“她”可以直接中断伴侣关系。费希尔确实也发现了,那些性别角色担当次数不等的伴侣容易分手。
社会学家和心理学家会提出一个问题:为什么有人会愿意捐赠血液(在英国等国家,血液捐赠为无偿)?我不觉得这个答案在互惠或伪装的自私下有那么简单。当这些长期血液捐赠者需要输血时,他们并未得到任何优先次序,也没有人给他们颁发金星奖章。也许我过于天真了,但我觉得这是一种真正的、纯粹的无私利他主义。这是因为吸血蝙蝠之间的血液共享刚好符合阿克塞尔罗德的模型。G.S.威尔金森(G.S.Wilkinson)的研究表明了这一点。
吸血蝙蝠以在夜里吸血为生。它们要得到食物并不容易,但每每得到的都是大餐。当黎明降临,一些不走运的蝙蝠可能会空着肚子回家,另一些则可能找到一个受害者,吸了充足的血液。第二天晚上,同样的故事又在上演。在这种情况下,一个互助的利他主义是可能产生的。威尔金森发现那些在夜里吸饱血液的幸运儿确实会将一些血液返流,捐赠给不走运的同伴。威尔金森观察了110例血液捐赠,其中有77次是母亲喂养孩子,而大部分其他的血液捐赠发生在近亲中。在完全没有血缘的蝙蝠中,一些血液捐赠的例子依然存在,“血浓于水”的说法看来并不完全符合事实。但是,这些共享血液的蝙蝠也经常是室友,它们有许多机会与对方持续打交道,这正是重复囚徒博弈所必须满足的条件。但囚徒博弈的其他条件呢?表12-4的回报表格显示了我们对此的预期。
表12-4 吸血蝙蝠的血液捐赠:在各种情况下我的回报
吸血蝙蝠的情况真的和这张表格一样吗?威尔金森对那些饿肚子的蝙蝠的体重下降速率进行计算。通过对饱食、饥肠与处于中间段的蝙蝠饿死速率进行分别计算,他算得血液得以维持生命的时间。他发现了一个并不惊奇的结论:这些速率并不相等,取决于蝙蝠的饥饿程度。比起吃饱喝足的蝙蝠,相同的血液量可以为饥肠辘辘的生命维持更多的时间。也就是说,虽然捐血可以增加捐赠者饿死的速率,但救助濒死生命的意义要大得多。这似乎表示蝙蝠的情况确实符合囚徒困境的规则。将血液捐赠给同伴中的所需者,比留着自用更为珍贵。在雌蝙蝠(吸血蝙蝠的社交范围为雌性)饥肠辘辘的夜里,可以从伙伴的捐赠中获益良多。当然,如果雌蝙蝠选择“背叛”,拒绝给同伴捐赠血液,逃离互助的责任,雌蝙蝠可以受益更多。在这里,“逃离互助责任”只在蝙蝠确实采取“针锋相对”策略时才有意义。那么,“针锋相对”在演化中的其他条件是否能满足呢?
重要的是,这些蝙蝠是否能够互相辨别呢?威尔金森的实验结果是肯定的。他俘虏了一只蝙蝠,将其与同伴隔离,并饿了雌蝙蝠一夜,其他同伴则得以饱食。当这只不幸的俘虏返回巢穴时,威尔金森就观察是否有任何蝙蝠给予其食物。这个实验重复了许多次,不同的蝙蝠轮流作为饥饿的俘虏又被送返。俘虏的蝙蝠们来自相隔数英里的两个巢穴,两个独立的组织。如果蝙蝠可以辨别它们的朋友,这只饥饿的蝙蝠将可以从也只能从自己的巢穴中获得帮助。
这正是事实。在观察到的13个血液捐赠者中,12个捐赠者是饥饿者的“老朋友”,来自同一个巢穴。来自不同巢穴的“新朋友”只喂养了1次饥饿的蝙蝠。这也许是个巧合,但当我们计算这个范例时,它发生的概率只小于。我们可以信心十足地总结,蝙蝠确实更偏爱帮助老朋友,而不是另一个巢穴的陌生人。
吸血蝙蝠是神秘的。对于维多利亚哥特小说的迷恋者来说,它们经常是在夜里恐吓他人、吸食血液、牺牲无辜生命以满足私欲的黑暗力量,再加上其他维多利亚时期的神秘事件,以及蝙蝠天生鲜红的牙齿和爪子,吸血鬼蝙蝠不正是自然界自私基因的最令人恐惧的力量的化身吗?我对于这些神秘事件嗤之以鼻。如果我们想知道一个事件背后的真相,就需要研究。达尔文主义赋予我们的并不是对一个特定生物的详细描述,而是一个更微妙,却更有价值的工具:对原理的理解。如果我们一定要加进一个神秘事件,那便是真相——关于吸血蝙蝠高尚品格的故事。对于蝙蝠自身,血并不浓于水。它们超越亲属关系,在忠诚的朋友间形成它们长久坚实的纽带。吸血蝙蝠可以讲述一个新的神秘故事,一个关于共享、互助、合作的故事。它们昭示这一个善良的思想:即使我们都由自私的基因掌舵,好人终有好报。