- 译本 >
- 精准学习 - 周加仙译 >
- 第三部分 学习的四大核心支柱 >
- 第9章 错误反馈
脑中充斥着错误信息
传输错误信号在学习中扮演着如此重要的角色,几乎所有的脑区都可以传输错误信号(见彩图17)。7让我们从一个简单的例子说起:想象你听到一系列相同的音符AAAAA,起初每个音符都会引起听皮层的反应,但是随着不断地重复,这些反应会逐渐减弱。这一过程被称为“适应”,这是一个看似简单的现象,它表明了脑正在学习预测下一个事件。突然,音符变成了AAAAA#,你的初级听皮层立即表现出强烈的惊讶反应:不仅适应消失了,而且有额外的神经元开始对意料之外的声音做出强有力的回应。并不是重复就一定会导致适应,重要的是你能不能预测音符的出现规律。例如,如果你听到了音符ABABA,你的脑就会习惯这种交替规律,听皮层的激活就会再次减少。然而,如果你听到的ABABB,因为最后一个B是意料之外的内容,就会引发惊讶反应。8
彩图17
错误反馈是学习的第三大支柱,脑依靠侦察错误、校正错误的过程逐渐调整它对外界环境的思维模式。脑中所有区域都会发送并交换错误讯号。在这个实验里,人脑学习侦察一个音频中的非正常频率音频:五个音的短旋律连续播放几次。当没有预警地改变这个序列时,一个表示错误的惊讶反应(红色)就马上被传送到脑的其他区域,让它们去修补预期。上图是听皮层区对违反预期的反应,下图是包括了前额叶皮层的延伸网络对违反预期的反应。
听皮层似乎在做一个简单的计算:它利用最近的过去来预测未来。一旦一个音符或者一组音符重复出现,听皮层就会断定今后也将继续如此。这是非常有用的策略,因为它让我们无须把太多的注意力放在无聊的、可预测的信号上。任何重复的声音都会在输入端被压缩,因为它的输入活动会被脑准确的预测所抵消。只要输入的感觉信号和脑中产生的预期相匹配,差值为零,就不会有错误信号传递到脑的高级区域。脑的预期会把输入的感官信号掩蔽,但只有在输入是可预测的情况下才会关闭。相反,任何违背我们脑的预期的声音都会被放大。因此,听皮层的简单回路起着过滤器的作用:它只向脑的高级皮层区域传递它自己无法解释的令人惊讶的和不可预测的信息。
因此,在某个脑区无法解释的输入信息都会传递到下一个更高级的脑区尝试理解。我们可以把大脑皮层想象成一个庞大的多层预测系统,每个系统都试图解释输入信息,并且与其他系统交换剩余的错误信息,以期能做得更好。
例如,我们听到CCG时,因为末尾的G不同于前面的音符,听皮层会在较低级的脑区产生一个错误信号。而高层级的脑区可以把整个序列识别为已知的旋律(一闪一闪亮晶晶)。因此,由末尾的字母G所引起的惊讶只是暂时的,它很快可以被整个旋律的更高层级的表征所解释,惊讶的信号就停在那个脑区,即G虽然是新的刺激,但在可以编码整首歌的旋律的前额叶下部皮层没能激起任何惊讶。不过,CCC的重复出现可能会产生相反的效果:因为音符十分单调,它不会在初级听皮层区域产生任何错误信号,但是它会让编码整个旋律的高级脑区感到惊讶,因为这些区域预测接下来出现的应该是G而不是C。猕猴跟我们人类一样,其听觉处理也有两个层级:听皮层对单个音符的局部进行加工,而前额叶皮层对整体的旋律进行表征。9
像这样的错误信号似乎存在于脑的每个区域中。整个大脑皮层的神经元都在适应重复的和可以预测的事件,而每当令人惊讶的事件发生时,神经元就会增加放电反应。在视皮层中,看到一个意想不到的图像,会促使神经活动激增。10而我们脑中的语言区则会对句子中的异常词做出反应。举个例子:“I prefer to eat with a fork and a camel.”(我吃饭用叉子和骆驼。)
你的脑刚刚出现了N400脑电波,这是由与先前情境不相符的单词或者图像所引发的错误信号。11这种负波会在异常词出现后的400毫秒时产生,出现在对词语意义敏感的左颞叶皮层中。而当脑预测某一类词会出现却接收到另外一类词时,位于前额叶皮层下部的布罗卡区就会对句法错误做出反应,12如下面的句子所示:“Don’t hesitate to take your whenever medication you feel sick.”(你觉得不舒服时要毫不犹豫地吃你任何时候的药。)
当意料之外的whenever出现后,脑中专门负责语法的脑区就产生了负波,紧随其后的是P600脑电波,它是大约600毫秒左右出现的正峰值。这个反应表明脑检测到了语法错误并试图修正它。
能较好展现预测信号和错误信号的脑回路是奖赏回路。13多巴胺回路不仅能对实际的奖赏做出反应,还能够持续不断地对其保持期待。多巴胺能神经元位于腹侧被盖区的小细胞核中,它不仅会对性、食物、饮水所带来的愉悦产生反应,还标志着预期奖励和实际获得奖励之间的差异,即预测误差。因此,如果动物在无任何预兆的前提下得到了奖励,比如一滴意料之外的糖水,这种惊喜就会导致神经元兴奋。但如果奖励出现之前就有信号可以预测它,那么同样的糖水就不会引起任何反应。现在是信号本身引起多巴胺能神经元的活跃:学习使神经元反应更加接近预期奖励的信号。
由于存在这种预测学习的机制,任何信号都可以成为奖赏的载体,并触发多巴胺反应。我们看到钱和吸毒者看到一支注射器都可以证明这种二次奖励效应。在上述两个例子中,脑都预测了未来的奖赏。正如我们在第1章所讲到的,这种预测信号对学习是非常有用的,因为它允许系统自我批评,并且不需要等待外部的确认就可以预测一次行动的成功或失败。这也就是为什么行动-评估网络,即其中一个人工神经网络学会评判另一个人工神经网络的行为,现在被广泛应用于人工智能领域以解决更为复杂的难题,比如学习下围棋。先做出一个预测、发现其中的错误然后自我矫正,这是有效学习的基础。