大脑中的反向传播

虽然大脑与backprop之间存在诸多不同，但在本文中，我们想指出大脑有能力执行backprop中的核心算法。

作者神经现实2020年5月31日328

俗话说得好：大脑要学习，突触可塑性少不了。大脑中的神经元能调控自身与其它神经元之间的连接强度，这一点我们早在上世纪七十年代就知道了。但我们也知道，学习的突触可塑性理论有一个缺陷，那就是我们不能通过单个突触的强度变化，来解释整个神经网络的行为：要明白学习，我们不能只考虑每个突触的可塑性，还要考虑它的行为学影响。因此，我们需要弄清楚大脑如何协调整个神经网络范围内的突触可塑性。

在机器学习领域中，人们在人造神经网络中研究突触应该如何表现才能实现效率最大化，这样也就能规避生物性的限制。为了得到这样一个人工神经网络，首先，我们要规定一个神经网络的结构，也就是该网络中有多少个神经元，神经元之间又该如何连接。举个例子，人们一般用的都是含有多层神经元的深度网络（deep networks），因为这种网络结构在很多任务上都表现较好。接下来，我们需要定义一个误差函数（error function）。这样一个误差函数可以告诉我们：这个网络目前表现如何？我们应该如何调整其中的神经元连接来减少误差？

当前，“backprop”（即back propagation，反向传播之简称）是机器学习领域最常用、最成功的深度神经网络训练算法。用backprop训练的网络在最近的机器学习浪潮中占据着中流砥柱的地位，承担上了语音和图像识别、语言翻译等任务。Backprop也推动了无监督学习（unsupervised learning）的进步，在图像和语音生成、语言建模和一些高阶预测任务中已不可或缺。与强化学习互相配合，backprop能完成许多诸如精通雅达利游戏，在围棋和扑克牌上战胜人类顶尖选手等控制任务（control problems）。

Backprop算法将误差信号（error signals）送入反馈连接（feedback connections），帮助神经网络调节突触强度——这个套路已经被老一辈的监督学习（supervised learning，也就是根据外界提供的“正确目标”所进行的学习）算法用得滚瓜烂熟。但与此同时，大脑中的反馈连接似乎有着不同的作用，且大脑的学习大部分都是无监督学习（在外界信息中找出其隐含的结构，并对之进行建模）。因此，自然会有人发问：backprop算法能不能告诉我们大脑是如何学习的呢？

虽然大脑与backprop之间存在诸多不同，但在本文中，我们想指出大脑有能力执行backprop中的核心算法。中心思想就是大脑能利用反馈连接来激发神经元活动，从而以局部计算出的误差值来编码“类反向传播的误差信号”（backpropagation-like error signals）。在这里，我们将一系列看似不尽相同功能的学习算法归入一个叫做“NGRAD”的算法框架中。NGRAD（neural gradient representation by activity differences）指的是通过活动误差进行神经梯度表征的算法。NGRAD框架向我们展示了，我们也许能够在规避实际应用问题的前提下实现反向传播。这对于任何具有前馈和反馈连接的大脑回路都具有一定的讨论意义，但本文中主要探讨皮质结构中的表现。大脑皮质（cortex）具有多层的分级结构，且有许多特征与深度网络相似。

请在微信公众号阅读全文。

原文：Lillicrap, T.P., Santoro, A., Marris, L. et al. Backpropagation and the brain. Nat Rev Neurosci 21, 335–346 (2020). https://doi.org/10.1038/s41583-020-0277-3
编译：山鸡，阿莫東森

https://www.nature.com/articles/s41583-020-0277-3