若大脑不爱意外，为何难捱无聊？

有望成为大一统理论的预测性编码，遭遇“小黑屋挑战”。

作者孙泽坤2020年5月9日825

有望成为大一统理论的预测性编码，遭遇“小黑屋挑战”。

想象一下，你独自置身于一个黑暗、空荡荡的房间。这里寂静而安定，所有的一切尽在你的觉知和掌握之中（跟我念：unagi~）。这里没有什么无法预测的扰乱源，比如，亲戚家熊孩子、突袭查房的老妈、你以为他忘了但他其实没忘的催稿编辑。

也许你并不觉得这个场景过于魔幻？在全球的社交隔离中，我们或多或少测试了一下自己到底有多喜欢瘫着，宅着，或是瘫着宅。我们恍然大悟，原来搬砖真的会使我快乐，而且最好是去工地搬。

那么问题来了，“安静呆着”怎么就那么难？这种“艰难”也许和人类心智的本质有关。

现在，让我们将人类心智抽象为一系列从接受信息到作出反馈的过程，如果你愿意，也可以将这些过程称为功能或者算法。那么，是否存在一个更基础的理论，能够解释和指导心智过程所涉及的一切算法呢？如果我们能够发现这种“大一统理论”，我们无疑会更接近人类智能的本质和起源。

这篇文章，我们要怼谈的是近二十年来有望夺得“大一统”桂冠的选手 —— 预测编码（predictive coding），以及这个编码和你家没开灯的卧室到底有什么关系。

永远充满“期待”的大脑

第一次听到“预测编码”的人，大概想不到它离我们的生活有多近。双击点开一张JPEG图片，你就会接触到预测编码。

你可以想象一副海景照片。现在，我们想用尽可能少的信息量来编码这张图片，以便你可以快速地下载和传送它。我们发现，这张百万像素的照片太“蓝”了，绝大多数邻近的像素都“蓝”的那么相同！只有少数的地方颜色产生了变化，比如海天相接的地方，或是沙滩的边缘。

既然如此，我们就不需要一个像素挨着一个像素重复编码了，我们只需要重点编码那些“没有保持队形”的像素，用预测值和真实值之间的偏离值来编码特征部位。比如，如果某个像素周围的像素均为蓝色，那么这个像素就很大可能也是蓝色；但如果它实际却是黄色的，就严重偏离了预测。这里的“预测误差”（prediction error）就是我们要编码的对象。通过这种方式，我们只编码每个像素与它的预测值之间的差异，就可以压缩这张图片的信息量了。

大脑和一张JPEG图片有什么关系呢？

虽然“预测编码”这个术语最早诞生在信息处理领域，但这种“编码误差”的思想早在19世纪就出现在认知/大脑相关的研究当中了。毕竟我们的大脑也是一个容量和处理能力都有限的系统。对这样一个系统而言，压缩信息、提高效率、以及如何“保真”都至关重要。大脑有可能利用“预测编码”来提高信息的识别、存储、输出吗？

物理学家赫尔曼·冯·亥姆霍兹（Hermann von Helmholtz）在1860年，将知觉描述为一个概率推断的过程。根据这种思想，大脑在认识和理解外部世界的时候，并不只是一味地累积外部输入的信息，更重要的是，大脑根据已有的知识，不断地对当前的信息进行预测。

当然，大脑编码信息比计算机编码JPEG图片复杂多了，它有可能是一个“多层处理结构”：相对低级的处理层向高级层级传输信号，“高层”则根据已有的模型（知识体系）进行“逆向匹配”。也就是说，每个层级都在预测下一级处理层的活动，如果预测信号符合低层传来的信号（比如，预测信号=真实信号=“蓝色”），那么大脑就无需进一步协调；但是！如果二者不匹配，就会产生我们需要重点编码的“预测误差”（prediction error），这个误差信号会告诉大脑的高级处理层：“喂，你的推测和模型需要调整一下哦！下次长点记性！”

这就是为什么第一个黄色像素出现的时候，预测误差非常大，而第一百个黄色像素出现的时候，大脑已经通过前99次的预测调整了“概率模型”，到100个的时候，就能够颇为准确地预测了。

预测编码是怎么解释认知过程的呢？让我们看个例子。视知觉有一个叫做“双眼竞争”的现象。如果我们用一种特别的机械，向你的左眼呈现一栋房子，向你的右眼呈现一张人脸。在保持双眼接收刺激不变的状况下，我们将一会儿看到人脸，一会儿又看到房子。也就是说，我们的视知觉对恒定刺激的解释在“人脸”和“房子”二者间互相切换。

那么，大脑用了什么“算法”，使稳定的“输入”最终呈现出不稳定的“输出”呢？预测编码的描述颇为合理：在一定的时间内，我们的大脑对外界输入的信息（双眼刺激）形成一种最佳预测，比如“我看到屏幕上有个房子”，这种预测信号和你左眼传入的“房子”刺激相符合，预测成功；但同时，这个预测却无法匹配你右眼传入的“人脸”刺激，从而产生了预测误差信号，这种信号促使大脑寻找另一种对于刺激的解释，也就是“我看到屏幕上有一张人脸”，这时候视知觉切换到了“人脸”模式，但这时，原先“房子”的刺激输入又造成了新的误差信号。如此往复，你就一会儿看到人脸，一会儿看到房子。总的来说，这种知觉的不稳定交替现象，其实是房子信号和人脸信号轮番引起“预测误差”的结果。

至此，我们了解到预测编码的核心功能：“预测误差最小化”（prediction error minimization）。预测编码理论的支持者们认为，对预测误差的矫正和极小化是人类心智活动的核心目标。换个说法，“降低预测误差”能够解释人类所有的行为和心智过程，包括注意、学习、记忆、行动、情绪和动机在内的一切，本质上都是接受信息、形成假设、矫正误差的过程。

相当有“大一统理论”的味儿了。

“破解”预测编码

预测编码的流行无疑与它的解释力有关。雅各布·霍威（Jokob Hohwy）在他的著作《作预测的心智》（The predictive mind）中说到：“大脑是一个复杂的假设验证系统，它所做的就是从外部世界接收信息，并不断地降低对于这些信息的预测偏差。这一机制旨在解释从知觉到行动的一切心智活动。”

是不是有点按耐不住内心的兴奋？想马上投身在花式预测模型的汪洋大海中？但等等，好像有什么不对劲？我们开头说过什么来着？

聪明的你发现了一个奇怪的矛盾：如果说大脑的终极任务就是消除一切的预测误差，那么，作为“误差终结者”的我们，为什么不干脆找一个黑房间，蜷缩其中呢？在这里，外部信息恒定不变，不存在任何新刺激，大脑始终处在“符合预期”的舒适状态之中。

这就是针对预测编码理论的“黑房间问题”（The Dark Room Problem）。“误差最小化”的大一统原则导致了一个吊诡的假设：我们应当竭力寻求最无聊的体验，而规避一切可能的“惊喜”。预测编码的理论能否克服这个问题，告诉我们，为什么人无法忍受一尘不变的环境？

“黑房间问题”是一个严肃的提问吗？也许你和许多人一样，并不这么认为。通常有这么几种回答“为什么不呆在黑房间”的方式：

“你肯定是会饿的啊？你必须离开房间去找吃的！”一点都没错，但同时这也丝毫没有回答原本的问题。根据预测编码，如果有机体的目标仅仅是减小预测误差，那只有当一种状态增加了预测误差（比如，前面的例子中，“人脸”刺激和“房子”知觉之间的信号误差，导致知觉解释向人脸转换），才会促使有机体改变状态，以达到“预期准确”。然而，对于一个在黑房间里无所事事的人来说，饥饿信号的可预测性相当高。既然，机体传入的信号“饥饿”符合大脑预测的信号“饥饿”，有机体就缺乏离开房间的机制。

“我们有好奇心，我们要探索世界啊！”从长期来看，离开黑房间也许会让我们更好的预测世界，探索未知或许会提高我们的预测能力。这个回应仍然没有抓住黑房间问题的本质。但即使预测编码的代表人物之一安迪·克拉克（Andy Clark）也承认：即使从长远看，那些驱使我们离开黑房间的动机无法一并归为“探索的工具性价值”。我们跳舞、坐过山车、援助慈善机构、朗读诗歌；我们甚至在刻意寻求出人意外的“惊喜”和“刺激”。即使诉诸于更长的时间和空间尺度，预测编码并不像它预计的那样，将所有的行为解释为“降低误差”的努力。

“难道进化没有在我们的基因里录入固有的动机吗？也许我们的天性就是寻求新鲜的体验！”没错，但这个解释牺牲了预测编码本身的大部分解释力。预测编码理论最令人兴奋的地方，莫过于它作为一个独立且具有强大解释的心智“万物理论” —— 将心智活动极为多样的各个方面统合在独一的原则之下。然而，如果这个原则需要诉诸于外部的补充和解释，那么它就不再是一个完整的大一统理论了。

除了上面这些不太成功的解释。预测编码理论本身能否克服黑房间问题呢？预测编码的领军人物，神经科学家卡尔·弗里斯顿（Karl Friston）也曾回答了这个问题。

弗里斯顿认为，黑房间问题从一开始就偏离了正确的方向。这是因为，它错误地假设黑房间造成的预测偏差很低！“黑房间本身其实十分‘出人意料’，因为我们的预测是自己‘不会呆在黑房间’。”所以，“呆在黑房间”实际上造成了很高的预测误差，这时，“最小化误差”的机制就会驱使我们离开房间。和之前的几种直觉性回复不同的是，弗里斯顿的答案似乎解决了这个问题，“预测误差最小化”本身诠释了为什么我们不愿身居黑屋。

然而，这个回答却让这个“大一统理论”陷入了一个更危险的境地。

自我预测 vs. 自我强化

其实，预测编码并不是第一个剑指“大一统理论”的选手。它有个非常著名的前辈：强化理论。

半个世纪之前，针对“强化理论能否解释一切人类行为”这个问题，两位深刻变革了认知研究领域的科学家——斯金纳和乔姆斯基——展开对垒。在乔姆斯基针对行为主义提出的一系列反驳中，有一个并不格外瞩目的观点：乔姆斯基列举了一系列日常活动，而它们似乎无一源于强化原则，或者说“奖赏”。乔姆斯基说到，无论成人还是孩童，我们会自言自语，会在没人的时候哼歌，会模仿汽车和飞机的声音，而做这些并不会有什么奖赏。那么，行为主义要怎么解释这类行为呢？

斯金纳的回答是“自我强化”：我们自言自语是因为这么做令我们自己感到满足，也就是说，所谓的“自我奖赏”就能够强化我们的行为。

对此，乔姆斯基一针见血的指出，诉诸“自我强化”实际上消解了行为主义的解释力。这类解释要不是错的（自言自语的确是自我奖赏吗？），要不就是没有意义的万金油（所有的行为都可以号称是“自我强化”出来的）。一个能解释任何事的“机制”最终其实什么都解释不了，因为它是空洞且不可证伪的。为什么一个人会阅读一本书、弹奏一段音乐、说一些话，等等……？哦！因为他自我强化了这些行为。“强化”这个术语已然丧失了它的解释力。

弗里斯顿对于黑房间问题的“自我预测”辩护，会令预测编码理论落入同样的境地吗？有可能。为什么我们会跳舞？因为我们预测自己并不会静止不动；为什么我们会捐赠慈善机构？因为我们预测自己会做好事；为什么我们需要社交（而讨厌社交隔离）？因为我们的大脑存在这样的预期“啊，我们大脑不喜欢自己呆着。”一方面，这些解释也许暗示了心智的重要原则，但另一方面，这些答案可能根本不能称之为解释或者机制。如果只是诉诸“我们不会逗留在黑房间”的自我预期，来克服“黑房间问题”，那么，我们可能再也找不到什么行为是预测编码无法解释的了，因为一切的行为都可以被一个反向的自我预测来解释。

诚然，预测编码在许多方面推动了我们对人类心智过程的理解，“黑房间问题”并不意在否认这些重要的贡献。但是，当一个理论试图作为心智科学的“万有理论”去解释有关人类的一切，我们则不得不审慎了。

后记

最后的最后，请允许我为自家实验室代言，并推荐我们发表在《认知科学趋势》（Trends in Cognitive Sciences）杂志的观点文章The Dark Room Problem。小小的剧透一下，文章有一个这里没有谈到的有趣论点哦。再大大的剧透一下，我们已经收到了Friston给杂志的letter，并且正在友好地~~打嘴仗~~讨论科学问题。对后续情节有兴趣的话，敬请持续关注！

编辑：EON
插画：COCO

参考文献

Sun, Z., & Firestone, C. (2020). The dark room problem. Trends in Cognitive Sciences, 24, 346–348.
Clark, A. (2013). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and brain sciences, 36(3), 181-204.
Clark, A. (2016) Surfing Uncertainty: Prediction, Action, and the Embodied Mind, Oxford University Press, New York
Chomsky, N. (1959) Review of Verbal Behavior by B.F. Skinner. Language 35, 26–58
Friston, K. (2013) Active inference and free energy. Behav. Brain Sci. 36, 212–213
Friston, K. et al. (2012) Free-energy minimization and the dark-room problem. Front. Psychol. 3, 130
Klein, C. (2018) What do predictive coders want? Syn- these 195, 2541–2557
Hohwy, J. (2013) The Predictive Mind, Oxford University Press, Oxford