一、竞赛介绍
1980年,密歇根大学政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)发起了一场竞赛。这是一场“重复囚徒困境”竞赛,参赛者需要提供计算机程序,每个程序代表一种行为策略。每两个程序均会相互进行多轮对决,在每一轮中,双方同时选择“合作”或“背叛”。比赛的积分规则模仿囚徒困境(双方合作各得3分,双方背叛各得1分,一方合作一方背叛则分别得0分与5分)。最终,在整个循环赛中总分最高的程序获胜。
在第一轮竞赛中,来自各领域的学者提供了五花八门的策略,其中不乏十分复杂的算法(例如根据对方的选择来估算收益等等)。最终,一种名为Tit For Tat(一报还一报)的策略赢得了比赛。这个策略极其简单,只有两条规则:①第一回合选择合作;②从第二回合开始,完全复制对方上一回合的行为。


阿克塞尔罗德公布了第一轮的结果,包括所有策略的细节和得分,并征集第二轮的程序。在这一轮竞赛中,许多参赛者都试图设计更复杂的策略来针对Tit For Tat策略。结果,Tit For Tat策略再次获得了胜利。
二、启示
为什么Tit For Tat策略如此成功?阿克塞尔罗德认为,这种成功的原因可以概括为以下四点:友善、可激怒、宽容、清晰。
1.友善
在Tit For Tat策略中,我们总是会在第一回合选择合作。这是一种主动释放善意的信号,你愿意为此付出最初的信任。尽管你可能因他人的背叛而短暂吃亏,但这在综合情况下仍会带来好的效益。
不妨让我们举几个竞赛中的例子,以说明这种友善的意义。Friedman策略会首先选择合作,但在被背叛后永远选择背叛。当你愿意首先选择合作时,你们将永远达成合作;但假如你首先选择背叛,你们将永远失去合作的机会。Graaskamp策略初期防御强烈,后期则会根据统计判断是否信任对方。当你首轮中释放善意,该策略将识别出这种善意,并在后续过程中持续与你合作。
Friedman策略和Grasskamp策略很好的模拟了现实中的两类人:前者对人际关系的忠诚度有着苛刻要求,而后者对人际关系持有悲观的防御性态度。这两类策略都有着合作的愿望,而Tit For Tit策略的友善性恰恰使它受益于这些情况之中。
2.可激怒
“以德报怨,何以报德?以直报怨!”尽管你拥有友善的底色,但一旦对手选择背叛,你总是会在下一回合予以报复。换言之,除了第一回合之外,你的友善并不是无条件的。
让我们再举几个例子。Joss策略同样倾向于模仿,但会偶尔背叛以测试对手反应。你需要对Joss策略保持报复原则,才不会令对方通过试探获利。Downing策略会根据对手对合作和背叛的反应来进行选择。在Downing策略与Tit For Tat策略的对战中,双方各获得了597分。个人猜测,这或许是Downing在持续合作的过程中尝试了一次背叛,随后又在发现了Tit For Tat的“可激怒”属性后转向了持久合作。
Joss策略的底色无疑是负面的,它试图利用他人的善良来获取利益,而这种策略也并未得到一个好的结果。而Downing策略虽谈不上邪恶,却也同样具有一定的算计属性。我们并没有生活在一个“天下大同”的理想社会之中,也就无法避免遇到那些负面的策略,而“可激怒”正是我们抵御这些策略的必要属性。
3.宽容
尽管你会报复对方,但当对方改正错误后,你也会重新选择合作。你并不像Friedman策略那样,在一次背叛后永远拒绝合作的机会;你甚至不像Tideman And Chieruzzi策略或是Shubik策略那样,选择对他人的背叛进行递增惩罚。
让我们同样以Downing策略为例。Downing策略是具有算计属性的,而你的“宽容”让Downing策略识别出了选择合作的长久利益。宽容建立在被背叛的前提之下,这意味着你遇到的不是绝对善良的策略。而宽容有效的前提是对方可被引导,Downing策略所具有的“功利性的明智”恰恰符合这一特征。
“宽容”不仅可以被理解为一种品德,也可以被理解为一种理智而非情感化的策略。对他人的知错就改保证一贯的宽容,而非逐渐沉浸于信任危机,这看似并不是一个那么理智的选择,但它确实实现了某种综合效益。
4.清晰
与其他策略相比,Tit For Tat策略的规则是十分简单而清晰的。它只有友好与模仿,没有复杂的计算、试探或是随机性。
我们仍然可以以具有学习性的Downing策略为例。Tit For Tat策略清晰的模式创造了可预测性,当对手能够总结出你的行为模式,就会基于长期回报来调整自己的行为,这使得它能与Downing策略建立长期合作关系。Nydegger策略和Feld策略作为Tit For Tat策略的复杂版本,在与Downing策略的对战中均获得了更一般的表现。而更有趣的是,在两个Dowing策略之间的对战中,它们只获得了202的低分。
可预测性不是“清晰”的唯一好处。正所谓“若非必要,勿增实体”,对于策略的持有者而言,一个清晰的策略是令人省心的。你不必像复杂的算法那样为动态调整花精力,只需要抓住一种简洁而优美的方法,并严格遵守其纪律即可。
总而言之,Tit For Tat策略整合了以上这些优点,而反过来说,以上这些美德也能创造出Tit For Tat策略。“友善”需要“可激怒”的保护,“可激怒”之后也要有“宽容”的胸怀,这一切都在一个“清晰”的框架之中简单而有效的运转着。无论从实验结论角度,还是从朴素认知的角度,我们都可以看到这种策略,以及这种策略背后的美德为我们带来的长远效益。
三、思考
在初赛中,TFT从与14个其余策略的对战中脱颖而出。反过来说,TFT胜利的一大原因和“对手采用了这些策略”脱不了干系。让我们设想一种极端情况,假设你的对手全都采用“永远合作”策略,那么你采用“永远背叛”策略反而会得到最优解。换言之,最优策略对于特定环境是不同的。
不过话说回来,阿克塞尔罗德竞赛虽然不能模拟现实情况,但它相对于其它极端环境而言仍是一种较为通用的环境。我们仍然可以相信,TFT是一种在绝大多数情况下,可以帮助你获得更高收益的有效策略。
