有望成为大一统理论的预测性编码,遭遇“小黑屋挑战”。
想象一下,你独自置身于一个黑暗、空荡荡的房间。这里寂静而安定,所有的一切尽在你的觉知和掌握之中(跟我念:unagi~)。这里没有什么无法预测的扰乱源,比如,亲戚家熊孩子、突袭查房的老妈、你以为他忘了但他其实没忘的催稿编辑。
也许你并不觉得这个场景过于魔幻?在全球的社交隔离中,我们或多或少测试了一下自己到底有多喜欢瘫着,宅着,或是瘫着宅。我们恍然大悟,原来搬砖真的会使我快乐,而且最好是去工地搬。
那么问题来了,“安静呆着”怎么就那么难?这种“艰难”也许和人类心智的本质有关。
现在,让我们将人类心智抽象为一系列从接受信息到作出反馈的过程,如果你愿意,也可以将这些过程称为功能或者算法。那么,是否存在一个更基础的理论,能够解释和指导心智过程所涉及的一切算法呢?如果我们能够发现这种“大一统理论”,我们无疑会更接近人类智能的本质和起源。
这篇文章,我们要怼谈的是近二十年来有望夺得“大一统”桂冠的选手 —— 预测编码(predictive coding),以及这个编码和你家没开灯的卧室到底有什么关系。
永远充满“期待”的大脑
第一次听到“预测编码”的人,大概想不到它离我们的生活有多近。双击点开一张JPEG图片,你就会接触到预测编码。
你可以想象一副海景照片。现在,我们想用尽可能少的信息量来编码这张图片,以便你可以快速地下载和传送它。我们发现,这张百万像素的照片太“蓝”了,绝大多数邻近的像素都“蓝”的那么相同!只有少数的地方颜色产生了变化,比如海天相接的地方,或是沙滩的边缘。
既然如此,我们就不需要一个像素挨着一个像素重复编码了,我们只需要重点编码那些“没有保持队形”的像素,用预测值和真实值之间的偏离值来编码特征部位。比如,如果某个像素周围的像素均为蓝色,那么这个像素就很大可能也是蓝色;但如果它实际却是黄色的,就严重偏离了预测。这里的“预测误差”(prediction error)就是我们要编码的对象。通过这种方式,我们只编码每个像素与它的预测值之间的差异,就可以压缩这张图片的信息量了。
大脑和一张JPEG图片有什么关系呢?
虽然“预测编码”这个术语最早诞生在信息处理领域,但这种“编码误差”的思想早在19世纪就出现在认知/大脑相关的研究当中了。毕竟我们的大脑也是一个容量和处理能力都有限的系统。对这样一个系统而言,压缩信息、提高效率、以及如何“保真”都至关重要。大脑有可能利用“预测编码”来提高信息的识别、存储、输出吗?
物理学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)在1860年,将知觉描述为一个概率推断的过程。根据这种思想,大脑在认识和理解外部世界的时候,并不只是一味地累积外部输入的信息,更重要的是,大脑根据已有的知识,不断地对当前的信息进行预测。
当然,大脑编码信息比计算机编码JPEG图片复杂多了,它有可能是一个“多层处理结构”:相对低级的处理层向高级层级传输信号,“高层”则根据已有的模型(知识体系)进行“逆向匹配”。也就是说,每个层级都在预测下一级处理层的活动,如果预测信号符合低层传来的信号(比如,预测信号=真实信号=“蓝色”),那么大脑就无需进一步协调;但是!如果二者不匹配,就会产生我们需要重点编码的“预测误差”(prediction error),这个误差信号会告诉大脑的高级处理层:“喂,你的推测和模型需要调整一下哦!下次长点记性!”
这就是为什么第一个黄色像素出现的时候,预测误差非常大,而第一百个黄色像素出现的时候,大脑已经通过前99次的预测调整了“概率模型”,到100个的时候,就能够颇为准确地预测了。
预测编码是怎么解释认知过程的呢?让我们看个例子。视知觉有一个叫做“双眼竞争”的现象。如果我们用一种特别的机械,向你的左眼呈现一栋房子,向你的右眼呈现一张人脸。在保持双眼接收刺激不变的状况下,我们将一会儿看到人脸,一会儿又看到房子。也就是说,我们的视知觉对恒定刺激的解释在“人脸”和“房子”二者间互相切换。
那么,大脑用了什么“算法”,使稳定的“输入”最终呈现出不稳定的“输出”呢?预测编码的描述颇为合理:在一定的时间内,我们的大脑对外界输入的信息(双眼刺激)形成一种最佳预测,比如“我看到屏幕上有个房子”,这种预测信号和你左眼传入的“房子”刺激相符合,预测成功;但同时,这个预测却无法匹配你右眼传入的“人脸”刺激,从而产生了预测误差信号,这种信号促使大脑寻找另一种对于刺激的解释,也就是“我看到屏幕上有一张人脸”,这时候视知觉切换到了“人脸”模式,但这时,原先“房子”的刺激输入又造成了新的误差信号。如此往复,你就一会儿看到人脸,一会儿看到房子。总的来说,这种知觉的不稳定交替现象,其实是房子信号和人脸信号轮番引起“预测误差”的结果。
至此,我们了解到预测编码的核心功能:“预测误差最小化”(prediction error minimization)。预测编码理论的支持者们认为,对预测误差的矫正和极小化是人类心智活动的核心目标。换个说法,“降低预测误差”能够解释人类所有的行为和心智过程,包括注意、学习、记忆、行动、情绪和动机在内的一切,本质上都是接受信息、形成假设、矫正误差的过程。
相当有“大一统理论”的味儿了。
“破解”预测编码
预测编码的流行无疑与它的解释力有关。雅各布·霍威(Jokob Hohwy)在他的著作《作预测的心智》(The predictive mind)中说到:“大脑是一个复杂的假设验证系统,它所做的就是从外部世界接收信息,并不断地降低对于这些信息的预测偏差。这一机制旨在解释从知觉到行动的一切心智活动。”
是不是有点按耐不住内心的兴奋?想马上投身在花式预测模型的汪洋大海中?但等等,好像有什么不对劲?我们开头说过什么来着?
聪明的你发现了一个奇怪的矛盾:如果说大脑的终极任务就是消除一切的预测误差,那么,作为“误差终结者”的我们,为什么不干脆找一个黑房间,蜷缩其中呢?在这里,外部信息恒定不变,不存在任何新刺激,大脑始终处在“符合预期”的舒适状态之中。
这就是针对预测编码理论的“黑房间问题”(The Dark Room Problem)。“误差最小化”的大一统原则导致了一个吊诡的假设:我们应当竭力寻求最无聊的体验,而规避一切可能的“惊喜”。预测编码的理论能否克服这个问题,告诉我们,为什么人无法忍受一尘不变的环境?
“黑房间问题”是一个严肃的提问吗?也许你和许多人一样,并不这么认为。通常有这么几种回答“为什么不呆在黑房间”的方式:
- “你肯定是会饿的啊?你必须离开房间去找吃的!”一点都没错,但同时这也丝毫没有回答原本的问题。根据预测编码,如果有机体的目标仅仅是减小预测误差,那只有当一种状态增加了预测误差(比如,前面的例子中,“人脸”刺激和“房子”知觉之间的信号误差,导致知觉解释向人脸转换),才会促使有机体改变状态,以达到“预期准确”。然而,对于一个在黑房间里无所事事的人来说,饥饿信号的可预测性相当高。既然,机体传入的信号“饥饿”符合大脑预测的信号“饥饿”,有机体就缺乏离开房间的机制。
- “我们有好奇心,我们要探索世界啊!”从长期来看,离开黑房间也许会让我们更好的预测世界,探索未知或许会提高我们的预测能力。这个回应仍然没有抓住黑房间问题的本质。但即使预测编码的代表人物之一安迪·克拉克(Andy Clark)也承认:即使从长远看,那些驱使我们离开黑房间的动机无法一并归为“探索的工具性价值”。我们跳舞、坐过山车、援助慈善机构、朗读诗歌;我们甚至在刻意寻求出人意外的“惊喜”和“刺激”。即使诉诸于更长的时间和空间尺度,预测编码并不像它预计的那样,将所有的行为解释为“降低误差”的努力。
- “难道进化没有在我们的基因里录入固有的动机吗?也许我们的天性就是寻求新鲜的体验!”没错,但这个解释牺牲了预测编码本身的大部分解释力。预测编码理论最令人兴奋的地方,莫过于它作为一个独立且具有强大解释的心智“万物理论” —— 将心智活动极为多样的各个方面统合在独一的原则之下。然而,如果这个原则需要诉诸于外部的补充和解释,那么它就不再是一个完整的大一统理论了。
除了上面这些不太成功的解释。预测编码理论本身能否克服黑房间问题呢?预测编码的领军人物,神经科学家卡尔·弗里斯顿(Karl Friston)也曾回答了这个问题。
弗里斯顿认为,黑房间问题从一开始就偏离了正确的方向。这是因为,它错误地假设黑房间造成的预测偏差很低!“黑房间本身其实十分‘出人意料’,因为我们的预测是自己‘不会呆在黑房间’。”所以,“呆在黑房间”实际上造成了很高的预测误差,这时,“最小化误差”的机制就会驱使我们离开房间。和之前的几种直觉性回复不同的是,弗里斯顿的答案似乎解决了这个问题,“预测误差最小化”本身诠释了为什么我们不愿身居黑屋。
然而,这个回答却让这个“大一统理论”陷入了一个更危险的境地。
自我预测 vs. 自我强化
其实,预测编码并不是第一个剑指“大一统理论”的选手。它有个非常著名的前辈:强化理论。
半个世纪之前,针对“强化理论能否解释一切人类行为”这个问题,两位深刻变革了认知研究领域的科学家——斯金纳和乔姆斯基——展开对垒。在乔姆斯基针对行为主义提出的一系列反驳中,有一个并不格外瞩目的观点:乔姆斯基列举了一系列日常活动,而它们似乎无一源于强化原则,或者说“奖赏”。乔姆斯基说到,无论成人还是孩童,我们会自言自语,会在没人的时候哼歌,会模仿汽车和飞机的声音,而做这些并不会有什么奖赏。那么,行为主义要怎么解释这类行为呢?
斯金纳的回答是“自我强化”:我们自言自语是因为这么做令我们自己感到满足,也就是说,所谓的“自我奖赏”就能够强化我们的行为。
对此,乔姆斯基一针见血的指出,诉诸“自我强化”实际上消解了行为主义的解释力。这类解释要不是错的(自言自语的确是自我奖赏吗?),要不就是没有意义的万金油(所有的行为都可以号称是“自我强化”出来的)。一个能解释任何事的“机制”最终其实什么都解释不了,因为它是空洞且不可证伪的。为什么一个人会阅读一本书、弹奏一段音乐、说一些话,等等……?哦!因为他自我强化了这些行为。“强化”这个术语已然丧失了它的解释力。
弗里斯顿对于黑房间问题的“自我预测”辩护,会令预测编码理论落入同样的境地吗?有可能。为什么我们会跳舞?因为我们预测自己并不会静止不动;为什么我们会捐赠慈善机构?因为我们预测自己会做好事;为什么我们需要社交(而讨厌社交隔离)?因为我们的大脑存在这样的预期“啊,我们大脑不喜欢自己呆着。”一方面,这些解释也许暗示了心智的重要原则,但另一方面,这些答案可能根本不能称之为解释或者机制。如果只是诉诸“我们不会逗留在黑房间”的自我预期,来克服“黑房间问题”,那么,我们可能再也找不到什么行为是预测编码无法解释的了,因为一切的行为都可以被一个反向的自我预测来解释。
诚然,预测编码在许多方面推动了我们对人类心智过程的理解,“黑房间问题”并不意在否认这些重要的贡献。但是,当一个理论试图作为心智科学的“万有理论”去解释有关人类的一切,我们则不得不审慎了。
后记
最后的最后,请允许我为自家实验室代言,并推荐我们发表在《认知科学趋势》(Trends in Cognitive Sciences)杂志的观点文章The Dark Room Problem。小小的剧透一下,文章有一个这里没有谈到的有趣论点哦。再大大的剧透一下,我们已经收到了Friston给杂志的letter,并且正在友好地打嘴仗讨论科学问题。对后续情节有兴趣的话,敬请持续关注!
编辑:EON
插画:COCO
参考文献
- Sun, Z., & Firestone, C. (2020). The dark room problem. Trends in Cognitive Sciences, 24, 346–348.
- Clark, A. (2013). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and brain sciences, 36(3), 181-204.
- Clark, A. (2016) Surfing Uncertainty: Prediction, Action, and the Embodied Mind, Oxford University Press, New York
- Chomsky, N. (1959) Review of Verbal Behavior by B.F. Skinner. Language 35, 26–58
- Friston, K. (2013) Active inference and free energy. Behav. Brain Sci. 36, 212–213
- Friston, K. et al. (2012) Free-energy minimization and the dark-room problem. Front. Psychol. 3, 130
- Klein, C. (2018) What do predictive coders want? Syn- these 195, 2541–2557
- Hohwy, J. (2013) The Predictive Mind, Oxford University Press, Oxford
评论