- 译本 >
- 精准学习 - 周加仙译 >
- 第三部分 学习的四大核心支柱 >
- 第9章 错误反馈
惊讶:学习背后的驱动力
还记得我们在第1章中提到过的学习机制吗?它能使猎人学会调整他的瞄准镜,他能使人工神经网络学会调节自己内在的权重。这个规则很简单:你先去尝试,即使失败了,你犯的错误会告诉你在下次尝试时怎样改进。因此,猎人在瞄准及射击之后会去评估这次射击偏离目标的程度,并用这个错误反馈来帮助自己调整下次的射击动作。是这种错误反馈让猎人可以微调他们的步枪,也使人工神经网络可以在更大的范围内调整内部数以百万计的参数,进而更好地对外部世界进行模拟。
那么脑也是这样运作的吗?早在20世纪70年代,支持这一假设的研究数据就开始涌现。两位美国研究者罗伯特·雷斯科拉(Robert Rescorla)和艾伦·瓦格纳(Allan Wagner)提出了下列假设:人脑只有在感知到它所预测的和实际所接收到的信息之间有差距时才会去学。没有感知到错误的话,学习是不可能发生的:“有机体只有在事件违反了他们的预期时才会去学习。”3换句话说,惊讶是学习的基本驱动力之一。
雷斯科拉和瓦格纳的理论很好地解释了经典条件反射学习范式。我们可能都知道巴普洛夫的狗,在巴甫洛夫的经典条件反射实验中,铃声一开始只是低效的中性刺激,但当它与食物反复配对后,铃声最终会触发条件反射,即狗一听到铃声就会流口水,因为它知道一出现铃声就会获得食物。那雷斯科拉和瓦格拉的理论是如何解释这些发现的呢?他们假定人脑会通过感觉输入(铃声引发的感觉)来预测后续刺激(食物)出现的可能性。其工作原理如下所示:
· 大脑通过计算感觉输入的加权总和来作出预测;
· 大脑算出它所预测的和它实际接收到的刺激之间的差异,即预测误差,这是该理论的一个基本概念,它测量的是与每个刺激相关的惊讶程度;
· 大脑用这个惊讶信号来纠正内部表征,让内部模型根据刺激强度、预测误差进行调整。这个规则保证了下一次预测会更接近实际值。
这个理论其实已经包含了我们学习的三大核心支柱:只有当大脑选择了适当的感觉输入(注意),利用它们来产生预测(主动参与),并且评估预测的准确性(错误反馈)时,学习才会发生。
雷斯科拉和瓦格纳在1972年提出的这个理论非常有先见之明。这实际上与后来在人工神经网络中被广泛应用的“差量规则”(delta rule)很相似,两者都是误差反向传播规则的简化版本,目前几乎用于所有的监督式学习系统中(在该系统中,对于神经网络应该做出的反应会给予明确的反馈)。此外,在以奖励为基础的机器学习中(告知人工神经网络错误的程度),类似的规则依然可以运用:人工神经网络可以预测奖励,而预测的奖励和真实的奖励之间的差异则可以用来更新内部表征。
因此,我们可以确定,今天的硅基学习机其实是直接受到了神经科学的启发。正如我们在前面看到的,人脑可以做得更好:为了从每个学习片段中提取尽可能多的信息,它会使用一种思维语言和统计模型,而这些模型比当前的神经网络要精细得多。不过,雷斯科拉和瓦格纳的基本思想仍然是正确的:脑试图预测它所接收到的输入信息,并且根据惊讶、不可能性或错误的程度来调整预测。学习的目的就是去设法让不可预测的事情变得更少。
雷斯科拉和瓦格纳的理论有着相当大的影响力,因为它比之前基于联想学习(23)概念的理论有了重大改进。过去,人们普遍认为,脑只是学会了将铃声与食物联系起来,而不是通过铃声来预测食物的出现。按照联想论者的观点,脑以一种纯粹被动的方式记录刺激和反应之间的所有偶然联系。然而,它连巴甫洛夫的条件反射也无法解释清楚。4因为即使是狗的脑也不是一个被动的只是去接受联结关系的器官。学习是主动进行的,其效果取决于信息违反我们预期的程度。
正向阻塞(forward blocking)对联想论者的观点的驳斥最引人注目。5在阻塞实验中,每只动物都接受了两种感觉线索,即铃声和灯光,而这两种线索都可以预测食物的到来,诀窍在于要按顺序呈现它们。我们先从灯光开始:动物学会了一旦灯光亮起就预示着食物的到来。然后我们让灯光和铃声同时出现,让动物知道这二者都能预测食物的到来。最后我们单独测试铃声对动物的影响,结果令人惊讶:它没有任何效果!当听到铃声时,动物不会流口水,它似乎完全没有注意到铃声和食物奖励之间重复联结了多次。这一结果与联想论是相矛盾的,但是完美地符合雷斯科拉和瓦格纳的理论。其中的关键在于第一个联结(灯光和食物)的习得会阻塞第二个联结(铃声和食物)的发生。为什么?因为动物已经知道灯光就可以预测食物出现,所以当灯光和铃声一起成功预测食物的到来时,动物的脑就不会产生任何预测误差。零错误,零学习——因此,狗不会习得任何关于铃声和食物之间相联结的知识。因此,先学会的规则会阻碍后一个规则的学习。
这个正向阻塞实验清楚地证明了学习不是通过联结起作用的。毕竟,铃声和食物的配对重复了数百次,但没有诱发任何学习。这次实验结果还表明:没有惊讶就没有学习,预测误差是学习产生的必要因素,至少对狗来说是这样。越来越多的证据表明,预测误差系统存在于各种动物的脑中。
需要注意的是,我们所说的错误信号是在脑中传递的内部信号。我们不需要为了学习而去真的犯错——我们所需要的只是让我们预期的结果和我们实际得到的结果之间存在差异。比如,我们思考一个简单的选择题:巴勃罗·毕加索(Pablo Picasso)的姓氏是迭戈(Diego)还是罗德里戈(Rodrigo)呢?假设我在第一次尝试时就幸运地得到了正确的答案,那在这个过程中,我学到东西了吗?当然。但即使我第一次尝试时回答对了,我也没什么信心,毕竟仅凭运气,我只有50%的可能性答对。正是因为我不确定我的答案是否正确,我随后收到的反馈就给我提供了新的信息:它让我确信我随机选择的答案实际上是100%正确的。根据雷斯科拉和瓦格纳的理论,这个新信息会产生一个错误信号,测量我的预测(50%的概率是正确的)和我现在知道的(100%确定这是正确答案)之间的差距。在我的脑中,这个错误信号传播开来并更新了我的知识,从而提高了我下次被问到同样问题时回答“迭戈”的概率。因此,如果以为对学习而言最重要的是犯很多错误,那就错了,就像沙多克斯一家仓促地使前999 999次火箭发射实验失败一样。最重要的是得到明确的反馈,减少学习者的不确定性。
没有惊讶就没有学习,这一基本规律现在似乎已经在包括人类婴幼儿在内的所有生物中得到证实。记住,惊讶是婴幼儿早期技能习得的基本指标之一:他们会长时间地盯着那些像变魔术般呈现给他们看的违背物理、算数、概率或者心理学法则的令人惊讶的事件(见彩图5)。其实他们并非仅仅是在盯着令人惊讶的东西看,他们显然也是在学习。
美国心理学家丽莎·费根森(Lisa Feigenson)做了一系列的实验,结果表明只要孩子认为一个事件是不可能或不可信时,学习就发生了。6例如,当婴儿看到一个东西神奇地穿过一堵墙时,他们会长久注视着这个不可思议的场景……随后能更好地记住这个东西发出的声音,甚至是大人用来描述动作的动词(例如“看,我刚才把玩具弄得发出了哔哔声”)。如果把这个东西给婴儿,他们玩这个东西的时间会比玩那些稀松平常的类似玩具的时间长得多。他们看似好玩的行为实际上表明他们正在积极地试图理解发生了什么。作为刚出道的科学家,他们进行实验,试图再现他们所看到的情景。例如,如果一个东西刚刚穿过了一堵墙,那么他们就会击打它,好像是为了测试它的坚固性;而如果他们看到某个东西违反了万有引力定律,神秘地悬在半空中,他们就会让它从桌子上掉下来,似乎是为了检验它的悬浮能力。换句话说,他们观察到的不可预测的场景的性质,决定了他们后续如何行动去调整他们的假设。这正是错误反向传播理论所预言的:每一个意外事件都会导致我们对外部世界所形成的内部模型的相应调整。
所有这些现象都可以在11个月大的婴儿身上观察到,但这些现象有可能在更早的时候就已经出现了。通过纠错来学习,在动物世界中是很普遍的事,因此我们有充足的理由相信错误信号从我们生命的一开始就主导着学习过程。