部落心理是我们的自然缺陷么？

计算机程序给我们带来的关于合作的启示。

作者Simon DeDeo2017年10月1日963

从卡内基梅隆大学的一间办公室里，我的同事约翰·米勒和我培育出了一个乐于执行种族灭绝的计算机程序。

这绝非我们的初衷。我们不是研究种族或是战争的学者。我们所感兴趣的是原始的合作行为是如何产生的。所以我们设计了生活在虚拟社会里的计算机程序，并且让它们互相玩一种特殊的游戏。这游戏非常容易触发复杂的社交行为，就像软香蕉滋生果蝇那样容易。

这个游戏被称之为囚徒困境。它有很多种形式，但是游戏的核心在于让两个人选择合作或是欺骗。如果他们同时选择欺骗对方，两人的游戏收益都会很差。如果都选择合作，两人都会获益。但是如果一方选择合作而另一方选择欺骗的话，后者能获取比两人都合作时更大的收益。

这个游戏的普适性广泛到可以引起政治哲学家的兴趣，但其细节又严密到可以用来指导计算机程序模拟。作为一个研究人类行为的数学工具，它可以与伽利略的平滑斜坡，或是孟德尔的豌豆媲美。是选择参与罢工，还是选择溜出罢工纠察线偷偷开工？是选择控制生产以维持高价，还是选择低价倾销破坏价格联盟？是选择在学习小组里尽职尽责，还是选择划水，把工作留给别人做？这些都和囚徒困境这个游戏有关。

Is Tribalism a Natural Malfunction?

What computers teach us about getting along.

计算机模拟的原理很简单：我们让有限理性的计算机程序在虚拟世界里反复玩这个游戏，记录它们的收益，并且冷酷无情地奖赏那些玩的好的，惩罚那些玩得不好的。那些成功的程序们会把它们的策略传给下一代，但并非完全照搬，而是偶尔加上一点微小的变化，以模仿在文化演化过程中常见的随机漂变。

我们还给这些程序们一个简单的语言，以便让它们思考。再加上足够的计算资源可以让它们拥有记忆，并据此作出决断。对于每一代计算机程序，我们都让它们两两配对反复玩这个游戏。这和真实生活有点类似：我们总是反复面对同样的交易伙伴，而如何对待他们是有后果的。两个鲁滨逊在沙滩上如何互动，这个基本上就是我们对世界的建模。

当我们建立的这个小社会经过一定的发展演进之后，我们所期望看到的是囚徒困境在很多人眼里的最优解：以牙还牙。即程序在开始游戏的时候选择合作，一旦被欺骗就选择用欺骗作为报复，但每次被欺骗仅仅报复一次。以牙还牙是荣誉感的基石，即善待他人（除非有理由不这么做），并且及时地原谅别人。

尽管如此，在我们设定计算机模拟允许所有策略可以任意演化的情况下，结果中还是有一些出人意料的东西。经过早起的群雄争霸阶段，其中的某一个计算机程序会迅速崛起，在数百个世代的时间里统治这个虚拟世界。直到某一天它突然崩溃，将世界抛回之前的混乱阶段，如此循环往复。如果这个世界有考古学家的话，他会发现历史是由长期的繁荣和短期的混乱交替构成的。

另一个出人意料的结果是，参与模拟的计算机程序的“总人口”并不是我们事先预想的那样主要由审慎而具有荣誉感的“合作者”构成（译注：即前文所描述的最优解，或“以牙还牙”策略），而是一个很莫名其妙的奇怪组合。有天晚上，我们在将整叠的图表归档的时候突然想出了这个奇怪现象的原因：占据总人口主导地位的计算机程序会用对方的行为模式作为标识，以此识别出自己的同类。

比如说，在囚徒困境的开场阶段，“以牙还牙”的计算机程序输出了一个特定的行为序列：合作，欺骗，欺骗，合作，欺骗，合作。如果它的对手也使用了该行为序列，且上一轮被欺骗的话就以欺骗来回应，上一轮对方合作的话就以合作回应，这样一来它们终究会达到一个永久合作的场景，相互之间给予对方合作收益。

但是对于那些不知道这个行为序列的程序们，情况就不那么令人乐观了。任何对于既定行为序列的偏离都会导致永久的全面战争，有时甚至以自杀性攻击的方式导致参与游戏的两个程序的共同毁灭。因为该行为序列几乎不可能被随机的变异所模仿，所以仅仅只有那些具有统治地位的程序的后代才能获得遗传收益。因为只有它们才能继承这个行为序列，并以此在一个充满敌意的世界里互相识别、无私合作。所有其它的程序都被消灭了，包括其它的那些使用“以牙还牙”策略的程序。具有该行为序列的程序持续地统治这个世界，直到有一天遗传变异逐渐累积，使得它们的后代们无法辨识出彼此。这时候它们就会兄弟反目，像曾经对待外人那样对自己的亲属们大开杀戒。整个过程仿佛是一个种群层面上的自体免疫疾病。

我们把这个有效的行为序列称为示播列*，出自《希伯来圣经·士师记》中所记录的种族灭绝：

基列人把守约但河的渡口，不让以法莲人过去。以法莲逃走的人若说，让我过去，基列人就问他说，你是以法莲人不是？他若说，不是，就对他说，你说示播列。以法莲人因为咬不准字音，便说西播列。基列人就将他拿住，杀在约但河的渡口。那时以法莲人被杀的有四万二千。

*译注：在《希伯来圣经·士师记》12章，基列人击败以法莲支派，幸存的以法莲人试图渡过约旦河回到本国领土，基列人夺取了渡口，阻止他们回去。为了识别并且杀死这些逃难者，基列人对每一个过河的人进行一项试验，因为以法莲人的方言缺少/ʃ/这个音。

示播列广泛存在于人类文明和冲突之中。在芬兰内战中，不能正确的发“yksi”（芬兰语的“一”）的音的人会被认为是俄国佬。漫步于曼哈顿街区的游客们也会因为把豪斯顿*街念成了休斯顿街而迅速暴露。

*译注： Houston Street名字来源于威廉·豪斯顿，而其拼写正好和德州大城市休斯顿是一样的。

而在我们所创造的虚拟空间里，计算机程序们成功地使用示播列统治世界消除异己。就算统治的黄金时代已经结束，继承混乱的也是它们的后代。进化的无形之手找到了一个简单而又残酷的生存方案。

这是个清晰而又野蛮的社会图景。但这只因为我们只给了计算机程序一点点计算资源以进行思考。如果两个完全理性的程序面对面又会怎样呢？如果它们了解对方也是完全理性的话，根据理性的定义，两个完全理性的个体，在面对同一问题时，应该作出同样的反应。在此基础上，两者应该同时选择合作。而这一选择并不是出于利他，而是两者同时认识到如果选择欺骗的话，对方也会欺骗，结果只能导致双输。

于是我们就有了一个社会的频谱。在频谱一端是思维能力极为有限的程序所构成的狭隘文明，最终沦落为残酷的部落社会。另一端是完全理性的参与者构成的合作型社会。

在这个两端由兽性的程序和天使般的理性构成的频谱上，人类处于哪里呢？

–

如果我们人类是超级理性的，亦或是在趋近于超级理性，则我们有理由乐观。弗朗西斯·福山在1992年发表他的历史终结论时的想法也许是类似的。尽管福山的论证来自于19世纪的德国哲学家如尼采和黑格尔，我们或许可以这样对其进行改写：一个足够复杂的对人类社会的模拟将会终结于一个高度理性、自由民主、并且是资本主义式的秩序主流，相对的是分散而不稳定的一些非主流秩序敌人。

福山的论证不仅仅是基于哲学推测，更是对当时社会现实的反映：共产主义阵营在西方的溃败，电子媒体的繁荣，开放的边界，和一个史无前例的大牛市。

而现在，他的思想更像是对过去那个时代的梦想的纪念（他书中一个章节甚至被命名为“卡带式录像机的胜利”）。我们的文化还在演化，但并不像是朝着某种大团圆的方向演化。我们所做的计算机模拟在21世纪的灾难和混乱面前变得真实起来。9/11事件二十年后，即便是自由开放的西方民主社会也开始认同人类行为的黑暗面和比福山要悲观得多的理论家们。

这些理论家比如卡尔·施密特就认为民主社会的审慎仅仅只是威权力量的伪装。或是罗伯特·米契尔斯，他通过对政治权利不平等的研究，认为民主是社会演化的过渡阶段，最终社会将被少数封闭的精英阶层所统治。立场相对的政治学家们都逐渐抛弃了对理性的政治秩序的幻想，而示播列在种族、国家、以及宗教事务上的决定性力量再一次显示出它是人类政治生活中不可分割的一部分。

但是在这些理论之间存在着一道宽阔而丰富的鸿沟，正如和它们相对应的计算机模型之间存在鸿沟一样。从米勒与我所创造的简单、暴力、理性匮乏的程序，到福山构想中存在于历史终点的超级理性合作者，这之间存在着巨大的自由度可供发挥。所以，至少在模型的世界里我们能够保存一些乐观。

位于伯克利的机器智能研究院（MIRI）专门研究计算机程序在资源受限条件下的行为。研究者们创造出理性并且能够互相检阅其行动代码的计算机程序。他们寄希望于这种程度的信息透明度可以解决合作问题：如果我能通过模拟对手的代码而预测它的行动，那么我可能会认为欺骗是得不偿失的。但是话说回来，如果对手的代码里包含了对于我的预测行为的模拟，并且试图从中获利呢？在非对称的理性条件下，解决这个问题极费脑力。

某些MIRI创造的计算机程序熟悉的像是你日常生活中可能遇到的角色。比如说“结党机器人”就只和它代码一样的程序合作。它只关心代码在字母层面上是不是完全一样。再比如说“公平机器人”就不会纠结于表面相似性，而是试图证明对方会不会和它合作。基本上“公平机器人”的想法是这样的：如果我能证明我的对手会跟我合作，那我就会跟它合作。

那么这些程序进行互动的结果如何呢？尽管整体的结果是令人矛盾的退步，但某些用来预测程序在囚徒困境中行为的研究至少给我们提供了合作的可能性，即使参与者是那些资源受限的程序。比如说“公平机器人”就能在代码不一样的情况下识别出类似的公平程序对手。这一结果说明多样化和合作行为是有可能同时存在的，至少是在参与者足够聪明的情况下。[1]

而且就算是残忍的种族灭绝程序也能为我们提供一些有用的思考。它们来自于电路板，生长于德州的一台超级计算机。它们不能为自己的行为仰赖任何生物性的借口。也许，我们也不应该从自身的基因中找借口：如果一个行为普遍到能用最简单的模拟程序生成，那也许我们的正确做法不是害怕或是崇拜它，而是设法应对和治疗它，就像我们对待癌症和流感一样。

如果我们仅仅把部落心理当作是某些认知系统有待克服的自然缺陷，无论是硅基的还是碳基的认知系统，而不是普遍真理或无法摆脱的原罪，世界又会是什么样子呢？

1. Barasz, M., et al. Robust cooperation in the Prisoner’s Dilemma: Program equilibrium via provability logic. arXiv 1401.5577 (2014).