购物车里没有产品

人工智能神经科学

也许我们从未活在当下，而是永远期待即将抵达的未来

一个充满争议的理论认为，感知、运动控制、记忆等大脑功能，都是大脑通过模拟预期未来，并与当下的实际体验进行比较，才得以实现的。

作者Jordana Cepelewicz2018年9月5日1.2k

一个充满争议的理论认为，感知、运动控制、记忆等大脑功能，都是大脑通过模拟预期未来，并与当下的实际体验进行比较，才得以实现的。

6月，人工智能领域的巨擘DeepMind公司发布了一个新程序。无需人类介入，该软件能自动从虚拟三维空间单个视角的照片推断出整个空间的布局，并给出在其他全新视角下可能看到的画面。只要给它几张三维迷宫的图片，这个叫做生成查询网络（GQN）的程序就可以模拟出整个迷宫的布局。

该程序不仅有显而易见的技术应用前景，也让神经科学家颇感兴趣。因为用来训练该程序完成任务的算法利用了“现实和预测之间的偏差”，项目领导者之一阿里·伊斯拉米（Ali Eslami）说。

他在DeepMind的同事及论文共同作者达尼洛·雷森德（Danilo Rezende）说：“算法能够调整它（预测性）模型中的参数，使得以后再碰到相同情况时，少一些‘惊讶’。”

给定一张绘有彩色立方块的二维图像（左图），人工智能程序“生成查询网络”可以推断出立方块的三维构型（右图）。该人工智能背后的基本想法与神经科学中的“预测性编码”理论相同。图片来源：Deepmind

神经科学家想到的，是预测性编码理论（实际上，这正是启发GQN团队的灵感之一）。该理论认为，在认知过程的每一个层级，大脑都会建立模型，或者说生成信念，去预测它从低层级脑区会接收什么样的信号，这些信念被翻译为一种在特定情况下会有哪些感觉体验的预期，这样就可以解释外界发生了什么，并理解体验的意义。这些预测随后被向下传输，反馈到低层级的感觉脑区。大脑会将反馈来的预测和实际的感觉输入进行比较，判断导致差别（或者说预测误差）的可能原因，通过内在的模型“抹平”部分差别；无法被解释并消除的预测误差，则作为前馈（feedforward，与反馈正相反）信号被传输到高层级的脑区，在那里它们被视作有价值的信息，需要加以注意并适当处理。

“这时，需要的就是调整内在模型，即大脑的动态，来抑制预测误差。”卡尔·弗里斯顿（Karl Friston）说，他是伦敦大学学院的著名神经科学家，也是提出预测性编码假说的先驱之一。

过去十年间，认知科学家、哲学家和心理学家，将预测性编码视为一个重要理论，尤其是作为感知运作机制的有力解释。更有人充满野心地认为，它是可以解释整个大脑机制的大一统理论。然而，很长时间以来，我们都没有足够的实验工具，来直接测试该假说描述的具体机制。随着技术发展，更显著的新证据在近两年开始涌现。同时，早期一些里程碑式的证据的可重复性受到了质疑。

咖啡、奶油和狗

“我的咖啡加了奶油和__。”在这句话的空格里，似乎只有填进“糖”是最自然的。加州大学圣迭戈分校（University of California, San Diego）的认知科学家玛尔塔·库陶什（Marta Kutas）和史蒂文·希利亚德（Stenven Hillyard）在20世纪80年代做了一系列实验，将上面这句话逐词呈现给参与者，同时记录他们的大脑活动。然而最结尾处不是“糖”，随着最后一个词显示出来，人们看到的是“我的咖啡加了奶油和狗。”

研究者观察到，当实验被试看到出人意料的单词“狗”时，他们的大脑反应更大，而且显示出了一种特殊的脑电活动模式，他们称之为“N400效应”，即该单词出现约400毫秒后脑电波达到峰值。问题是，大脑是因为该单词不符合句子的上下文语义而产生N400效应，还是因为它违反了大脑的预期？

2005年，库陶什和她的团队进行了另一项研究，实验结果支持了“违反大脑预期”这一解释。在该研究中，逐词呈现的句子是：“今日微风习习，因此男孩去户外放（fly）__”。因为“风筝”（a kite）是最有可能的结尾，因此被试会预期下一个看到词应该是冠词“a”。而当被试看到的是“an”而非“a”时——这就代表最后一个单词是元音开头，比如“飞机”（an airplane）——他们的大脑出现了N400效应。这时，该效应显然和冠词的语义无关（冠词没有语义），也和处理视觉刺激本身的难度无关，而是和冠词所提供的对下个单词的预期有关。

2005年的研究似乎非常符合预测性编码的理论框架，但是去年4月，在《eLife》上发表的一篇论文称，数个实验室都无法重现实验的结果。目前，其他的研究者也纷纷回应，其中一些声称，在复制实验中，实验方法存在细微差别，但对它们分析结果依然更支持预测性编码解读。

这些来回往复的争辩，很大程度上反映了围绕预测性编码本身的争论。类似库陶什做的实验可以有多种解读：除了预测性编码理论，还有很多模型可以解释它们的实验现象。这些实验都不能给出预测性编码理论的决定性证据，因为它们尚未挖掘到深层机制。尽管预测性编码理论已经对“大脑持续做出推断并与实际情况比较”的想法做了深入阐释，但是理论的支持者依旧在苦苦寻找证据，以证明他们讲述的故事是“唯一正确版本”，并可以扩展到所有类型的认知。

贝叶斯大脑和高效计算

预测性编码的基本观点——大脑持续地对当下体验做出预测并评估预测——并非一直都被当作理所当然。20世纪的主流神经科学将大脑描述为一个特征检测器：感知、处理、然后行动。神经元的活动代表物理世界中刺激的在场或缺乏。比如说，视觉皮层的一些神经元对视野中的物体边缘反应，另一些的发放则反映了物体的方向、颜色和灰度。

但是，事实证明这个流程并非我们想象中那样直接。进一步实验发现，当你的目光随着一根长长的直线延伸到远处时，虽然视野中的直线还在，检测直线的神经元会停止发放，就好像这条直线消失了一样。而此时，神秘的“自上而下”反馈连接中，却好像有许多信息通过。

这就轮到“贝叶斯大脑”登上舞台了。这个根源可以追溯到19世纪60年代的普适框架彻底颠覆了传统理论。该理论认为，大脑基于其内部的模型对外部世界做概率推断，换句话说，它在尽可能地猜测它应该对感知到的东西作何理解；这和贝叶斯统计原理是一致的，即用过去的经验和当前的体验，判断某个事件发生的概率。大脑并不只是消极地等待感觉输入来驱动认知，而是持续主动地建立“世界如何运行”的假说，并用这些假说来解释感觉体验、补充缺失的部分。这就是为什么，有些专家认为感知是“受控的幻觉”。

按照同样的思路，贝叶斯大脑模型也能解释视错觉如何产生。比如，屏幕上交替闪动的两个亮点看上去像是一个点在来回移动，于是我们的大脑就无意识地将它们看作是同一个亮点。对物体移动的理解是高层级的，但是它却能从根本上影响我们低层级的感知。大脑就是这样填补信息空洞——在这个例子中，缺失的是物体的运动——以绘制出并不完全准确的世界图景的。

在这个为大众熟知的视错觉图片中，棋盘A格的颜色看上去明显比B格深一些；而实际上，它们的灰度是一样的。大脑利用周围格子的颜色和圆柱体阴影的位置对棋盘的颜色做出推断。在这个例子中，这种推断产生了“A和B灰度不一样”的感知，尽管物理上它们的灰度是一致的。像右图那样连接起两个格子，并遮挡掉圆柱体，你能看得更清楚。图片来源：Adrian Pingstone，修改自Edward H. Adelson

尽管科学家们已经明确了生成模型以及预期在大脑功能中的重要性，却依然无法确切指出它们到底是如何通过神经回路实现的。“相对来说，贝叶斯大脑版本的故事对于其底层的机制抱着不可知论的态度。”爱丁堡大学的心灵哲学教授马克·施普雷瓦克（Mark Sprevak）说。

说回预测性编码理论。它为大脑如何做贝叶斯推断提供了具体的公式。“预测性编码”一词原本指通信工程中一种让远程通信更高效的技术。因为视频文件帧与帧之间通常包含许多冗余，压缩数据时编码每一帧的每一个像素很没效率，更有效的方法是相邻帧之间的差异进行编码，再反向操作来解码整段视频。

1982年，科学家发现在神经科学中也可以巧妙运用这个想法，因为它能解释视网膜的神经元如何编码在视神经上传输的视觉刺激。人们也坚信它是大脑奖赏系统的运作原理：多巴胺神经元编码的是预期奖赏和实际奖赏间的差异强度。研究者们认为，这些预测误差帮助动物更新未来的预期，并驱动它们的决策。

虽然那么多例子摆在这儿，过去的科学家们大多还是认为，预测性编码只是专用于几个特定大脑网络的原理。现在，运用功能核磁共振成像（fMRI）等方法的实验已经开始改变这个观点了。

一个统一的架构

预测性编码假说如此具有说服力，部分原因来自其强大的解释力。“令我信服的一点在于，许多东西都可以在这个故事中得以阐明。”安迪·克拉克（Andy Clark）说。他是爱丁堡大学的逻辑学和形而上学教授，也是预测性编码理论专家。

首先，它将感知和运动控制统一纳入了同一个计算过程。它们本质上是一枚硬币的两面：尽管使用的是两种不同的方法，但大脑都在尽量消除预测误差。在感知中，大脑是在调整内部的模型；而在运动控制中，调整的是实际环境——想象一下，如果你想要举手，而手还没举起来，这个差异就会产生巨大的预测误差，这个误差只需你移动手臂就能消除。

Lucy Reading-Ikkanda/Quanta Magazine。翻译：顾金涛

感知和运动控制领域的一些实验也为预测性编码提供了最强有力的证据。例如，6月发表在《神经科学杂志》（Journal of Neuroscience）的一篇论文中，实验者要求被试看着屏幕，他们看到了屏幕上的单词“kick”，随后他们又听到了一段音频。音频原本录的是“pick”，但是经过了音频处理，像是压着声音说的，这让大多数被试都汇报说他们听到的是“kick”。而fMRI扫描显示，大脑响应最剧烈的是开头的音“p”或“k”。这说明大脑在表征预测误差，因为如果大脑表征的仅仅是实际的感官体验，那么响应最剧烈的应该是在屏幕上和音频中都出现的“ick”，而非与预测误差相关联的“p”或“k”。

还有一些学者努力将预测性编码理论扩展到感知和运动以外的领域，试图将其定性为大脑中一切活动的“通货”。“这就像是积木，能构建出不同大脑功能结构的积木，”克拉克说。不同的脑区之间交易的就是不同种类的预测。

弗里斯顿等人声称，这也适用于更高级的认知过程，包括注意力和决策。最近对前额叶脑区进行的计算神经科学研究，就提示了在工作记忆和目标导向的行为方面，预测性编码也有参与。一些研究者论证道，情绪过程也可以用预测性编码的方式来描述：情绪可能是大脑为了减小对身体状态（比如体温、心率、血压）的预测误差而表征出的状态，当大脑认识到自己激动、焦虑和不安时，它知道的是自己的这些身体指标飙升了。或许，这也是“自我”这个概念涌现的起点。

这一系列的研究大多数着眼于借助预测性编码理论，解释神经精神病和神经发育紊乱的原理。弗里斯顿说：“如果大脑是一台做统计推断的机器，那当它出错时，它会犯统计学家常犯的错。”也就是说，它会因为高估或忽视预测及预测误差而做出错误推断。

例如，自闭症的某些特征，可能是由于大脑无法忽略最低处理层次的感觉预测误差而产生的。这可能导致对感觉的过度关注，对重复和可预测性的渴求，对某些错觉的高度敏感以及其他反应。精神分裂症等与幻觉相关的病症则可能与之相反：对正在发生的事情，大脑可能会过度依赖自己的预测，而不够重视与这些预测相矛盾的感官信息。（不过专家们也不忘提醒，自闭症和精神分裂症的成因是复杂的，不能简化为单一的解释或机制。）

耶鲁大学医学院的临床神经科学家菲利普·科莱特（Philip Corlett）说：“它给我们最深刻的启示是，我们的心智功能竟然如此易受影响。” 科莱特的实验室进行过一些实验，他们能在健康的被试脑中建立新的“信念”，让他们产生正在体验曾经接受过的刺激的幻觉。（在其中一个实验中，科学家将一个图案作为条件刺激和一个音调联系一起，当被试看到图案时，即使没有声音，他们也以为自己听到了那个音调。）研究者正试图弄明白这些信念是如何被转化为感知的。通过这些研究，“我们有证据表明感受和认知并没有那么泾渭分明。”科莱特说，“新的信念可以被植入，并影响你的感知。”

然而，证据还不足以确证结论——直到现在。

聚焦一下，仔细看看

“我们的实验工作经常表明，实验结果与预测性处理的假说兼容，但这并不意味着预测性编码是最佳解释。”施普雷瓦克说。预测性编码理论在认知科学领域中被广泛接受，但“在系统神经科学领域，它仍然处于弱势，” 瑞士弗里德里希·迈瑟生物医学研究所的神经科学家格奥尔格·凯勒（Georg Keller）说。他的实验室正试图用更确凿的证据改变这一局面。

瑞士弗里德里希·迈瑟生物医学研究所的神经科学家格奥尔格·凯勒。他一直致力于找到预测性编码假说的机制性证据。图片来源：Roland Tännler

在去年发表于《神经元》（Neuron）的一项研究中，凯勒和他的同事观察到小鼠视觉系统中出现了一种神经元，它们的预测能力可以随着时间的推移变得更强。该发现源于一场意外：当他们开始在视频游戏中训练小鼠时，发现虚拟世界的方向弄颠倒了。通常，只要小鼠向左转，它们就会看到视野向右移动，反之亦然。但有人不小心左右翻转了研究人员在研究中使用的虚拟世界，因此老鼠一旦左转，视野也会向左移动。研究人员意识到这个失误有意想不到的价值。他们监测小鼠脑中表征这种视野流动的信号，发现随着小鼠逐渐熟悉倒置的环境，该信号也缓慢地变化着。凯勒说：“这些信号看起来像是对视野向左流动的预测。”

如果该信号表征的只是小鼠的视觉感官体验，那么小鼠进入虚拟世界时它们就会立即翻转。如果它们是运动信号，根本就不会翻转。事实是，“它关乎识别预测，”凯勒说，“给定运动方向下，对视野流动的预测。”

“这项工作提供了一种前所未有的证据。”克拉克说，“这项证据具体到了非常局部的每个细胞、逐个层级，于是我们可以清晰地看到，预测性编码是最佳适配模型。”

巧合的是，几乎同时，有人在猕猴大脑的面部识别脑区发现了类似的现象。以往的研究已经显示，该脑区神经网络的较低层级上，神经元对以方向为基础的面部信息编码，比如说，有些神经元专门在看到侧脸时发放。而在较高的层级，神经元以更为抽象的方式表征面部信息，它们在乎的是脸的“身份”，而非位置。

在这个猕猴研究中，研究者先训练猴子，让它们看两张脸，先出现的一张脸总是透露一些有关第二张脸的信息，让猕猴可以对第二张脸进行一定预测。随后，实验者用特定的方式干扰它们的预期，比如用不同角度呈现第二张脸，或者两张脸没有丝毫联系。结果，在面部处理网络的低级神经元发现了与面部朝向无关的预测误差——猕猴预测“身份”出了差错。这些错误源于系统较高阶层，也就是说，低阶神经在比较感官输入与高阶传输下来的预测时，产生了错误。

“在那个系统中发现了预测误差，并找到了预测的具体内容，让我很激动。”该论文的第一作者，德国哥廷根欧洲神经科学研究所的神经科学家卡斯帕·施维兹克（Caspar Schwiedrzik）说。

马克斯·普朗克经验美学研究所的研究员露西亚·梅罗妮（Lucia Melloni）则称，她的小组在人类实验搜集到的一些神经数据也可以用预测误差解释。

寻找超级预测机器的竞赛

支持大脑采用预测性编码的证据似乎更强大了，但不是所有人都被说服了。一些科学家承认这个理论可以解释认知的某些方面，但并不认同它可以解释一切。还有些人丝毫没有被预测性编码理论打动。纽约大学心理学教授大卫·海格（David Heeger）提出，关键在于区分“预测编码”（重点是高效地传输信息）以及“预测处理”（他将其定义为做出预测的历时性过程）这两个概念。

他说：“过往的文献中存在很多混淆，因为那些研究者以为只要不加区分地一锅乱炖就可以了。”他说， “这种做法有时候会导致错误，甚至可能把研究的大方向都带偏了。”他举例说明道，在某些情况下，其他类型的贝叶斯模型可能会提供更准确的脑功能描述。

该领域的许多专家普遍认同的是，这项研究在机器学习领域的应用潜力不可估量。目前，绝大多数人工智能研究都不涉及预测编码，而是关注其他类型的算法。

但弗里斯顿认为，在深度学习环境中建立预测编码架构，可以使机器更接近智能。

DeepMind的GQN就发挥了这一潜能。去年，苏塞克斯大学的研究人员甚至使用包括预测编码功能的虚拟现实和人工智能技术，创建了他们所谓的“幻觉机”，这种工具能够模拟通常由迷幻药物引起的幻觉状态。

通过比较预测编码模型与其他技术的表现，机器学习领域的进展还可以为我们提供关于大脑的新洞见。至少，将预测编码引入人工系统可以显著提高这些机器的智能水平。

但在此之前，还有很多工作要做。科学家需要将凯勒、施维兹克等人正在进行的研究继续推进，以回答大脑在哪些地方进行内部表征等问题。此外，类似的实验是否能够发现支持预测性编码参与更高级的认知过程的证据，目前也悬而未决。

格拉斯哥大学的神经生理学家拉尔斯·木克里（Lars Muckli）指出，预测性编码“对于神经科学来说，就像演化论对于生物学一样重要”。但就目前而言，施普雷瓦克表示，“还不到判决的时候。”