俗话说得好:大脑要学习,突触可塑性少不了。大脑中的神经元能调控自身与其它神经元之间的连接强度,这一点我们早在上世纪七十年代就知道了。但我们也知道,学习的突触可塑性理论有一个缺陷,那就是我们不能通过单个突触的强度变化,来解释整个神经网络的行为:要明白学习,我们不能只考虑每个突触的可塑性,还要考虑它的行为学影响。因此,我们需要弄清楚大脑如何协调整个神经网络范围内的突触可塑性。
在机器学习领域中,人们在人造神经网络中研究突触应该如何表现才能实现效率最大化,这样也就能规避生物性的限制。为了得到这样一个人工神经网络,首先,我们要规定一个神经网络的结构,也就是该网络中有多少个神经元,神经元之间又该如何连接。举个例子,人们一般用的都是含有多层神经元的深度网络(deep networks),因为这种网络结构在很多任务上都表现较好。接下来,我们需要定义一个误差函数(error function)。这样一个误差函数可以告诉我们:这个网络目前表现如何?我们应该如何调整其中的神经元连接来减少误差?
当前,“backprop”(即back propagation,反向传播之简称)是机器学习领域最常用、最成功的深度神经网络训练算法。用backprop训练的网络在最近的机器学习浪潮中占据着中流砥柱的地位,承担上了语音和图像识别、语言翻译等任务。Backprop也推动了无监督学习(unsupervised learning)的进步,在图像和语音生成、语言建模和一些高阶预测任务中已不可或缺。与强化学习互相配合,backprop能完成许多诸如精通雅达利游戏,在围棋和扑克牌上战胜人类顶尖选手等控制任务(control problems)。
Backprop算法将误差信号(error signals)送入反馈连接(feedback connections),帮助神经网络调节突触强度——这个套路已经被老一辈的监督学习(supervised learning,也就是根据外界提供的“正确目标”所进行的学习)算法用得滚瓜烂熟。但与此同时,大脑中的反馈连接似乎有着不同的作用,且大脑的学习大部分都是无监督学习(在外界信息中找出其隐含的结构,并对之进行建模)。因此,自然会有人发问:backprop算法能不能告诉我们大脑是如何学习的呢?
虽然大脑与backprop之间存在诸多不同,但在本文中,我们想指出大脑有能力执行backprop中的核心算法。中心思想就是大脑能利用反馈连接来激发神经元活动,从而以局部计算出的误差值来编码“类反向传播的误差信号”(backpropagation-like error signals)。在这里,我们将一系列看似不尽相同功能的学习算法归入一个叫做“NGRAD”的算法框架中。NGRAD(neural gradient representation by activity differences)指的是通过活动误差进行神经梯度表征的算法。NGRAD框架向我们展示了,我们也许能够在规避实际应用问题的前提下实现反向传播。这对于任何具有前馈和反馈连接的大脑回路都具有一定的讨论意义,但本文中主要探讨皮质结构中的表现。大脑皮质(cortex)具有多层的分级结构,且有许多特征与深度网络相似。
请在微信公众号阅读全文。
原文:Lillicrap, T.P., Santoro, A., Marris, L. et al. Backpropagation and the brain. Nat Rev Neurosci 21, 335–346 (2020). https://doi.org/10.1038/s41583-020-0277-3
编译:山鸡,阿莫東森
写留言