接受错误以减少错误:临床预测与统计预测
我们在试图解释世界上发生的事件时,往往拒绝承认偶然因素的作用,这实际上会降低我们对现实世界的预测能力。在某个领域中,承认偶然因素对结果所起的作用,意味着我们必须接受这样一个事实,即预测永远不可能百分之百准确,我们在预测中总是会犯一些错误。但有趣的是,承认我们的预测达不到百分之百的准确度,实际上反而有助于我们提高整体预测的准确性。这听起来好像有点儿矛盾,但是事实确实如此:为了减少错误就必须接受错误。
“接受错误以减少错误”这一概念,可以通过一个在认知心理学实验室里研究了数十年的非常简单的实验任务来说明。这个实验任务是这样的,被试坐在两盏灯(一红一蓝)前,实验者要求他们去预测每次测试时哪一盏灯会亮,被试要做很多轮这样的测试(通常被试会因为正确预测而获得报酬)。实际上,所有的测试都是在70%的次数亮红灯、30%的次数亮蓝灯的条件下进行的,两种灯以随机顺序出现。实验过程中,被试很快就感到红灯亮的次数比较多,因此也就在更多的测试中预测红灯会亮。事实上,他们确实在大约70%的测试中预测红灯会亮。然而,正如前面所讨论的,被试在实验过程中开始相信灯亮是有一定模式的,但却几乎从没想过顺序是随机的。因此,他们在红灯与蓝灯之间换来换去,但保持70%的次数预测红灯会亮,30%预测蓝灯会亮。被试极少意识到,尽管蓝灯亮的次数为30%,但如果他们不换来换去,而是每次都预测红灯会亮,他们的预测会更好一些!为什么会这样呢?
让我们想想这一情境背后的逻辑。在以70:30的比例随机点亮红灯或蓝灯的情况下,如果被试在大约70%的测试中预测红灯会亮,30%的测试中预测蓝灯会亮,他的准确率会是多少呢?我们用实验中间部分的100次测试来计算——因为那时被试已经注意到红灯亮的次数比蓝灯多,从而开始在70%的测试中预测红灯会亮。因为在100次测试中有70次红灯亮,所以被试在这70次中有70%的准确率(因为被试在70%的测试中预测红灯会亮),即被试在70次中有49次正确的预测(70×0.7);100次测试中有30次蓝灯亮,被试在这30次中有30%的正确率(因为被试在30%的测试中预测蓝灯会亮),即被试在30次中有9次正确的预测(30×0.3)。因而,在100次测试中,被试的准确率是58%(49次正确预测红灯和9次正确预测蓝灯)。但是,请注意,这是多么糟糕的成绩啊!如果被试在注意到哪一盏灯亮得比较多之后,总是预测那盏灯会亮——在本实验中就是注意到红灯亮的次数比较多,因此总是预测红灯会亮(姑且称之为“百分之百红灯策略”)。那么,他在100次测试中会有70次准确的预测。虽然在蓝灯亮的30次测试里,被试都预测错了,但是总的准确率仍然高达70%——比在红灯与蓝灯之间来回变换的58%的准确率要高12个百分点!
百分之百红灯策略也会带来令人困扰的后果——每次蓝灯亮你都错了。而且,由于蓝灯至少会亮若干次,对有些人来说,永远不预测蓝灯亮似乎也不对。但这正是正确的概率思维所需要的,它要求我们接受在蓝灯亮时将会犯的错误,以换得每次都预测红灯所能获得的更高的整体命中率。简而言之,为了减少总体的错误,我们必须接受蓝灯错误。以一定的准确度预测人类行为通常也需要接受错误以减少错误,也就是说,依靠一般性的原则来做出比较准确的预测,同时也要承认我们不可能在每件具体事情上都预测准确。
然而,“接受错误以减少错误”做起来很难,心理学领域60年来关于临床预测和统计预测的研究就证明了这一点。统计预测是指依据从统计资料中得出的群体趋势所做的预测。本章一开始所讨论的群体(也就是总体)预测就属于这种预测。一种简单的统计预测是,针对凡是具有某种特征的所有个体,做出相同的预测。所以,举一个虚构的例子,预测不吸烟者的寿命是79.5岁,而吸烟者是66.3岁,就是一个统计预测。如果我们考虑的群体特征不止一个(运用第5章谈到的复杂相关技术——尤其是多元回归技术),我们的预测将更加准确。例如,预测吸烟、肥胖且不运动者的寿命是60.2岁,就是一个在多变量(吸烟行为、体重和运动量)基础上的统计预测,这样的预测总是比单变量的预测更加准确。
统计预测在经济学、人力资源、犯罪学、商业与营销学以及医学等领域都很常见。例如,发表在《美国医学会期刊》(Journal of the American Medical Association)和《内科医学年鉴》(Annals of Internal Medicine)的研究报告了如下的概率趋势:中年时肥胖的人在65岁之后出现心脏问题的概率比中年时不肥胖的人高四倍;超重(但不肥胖)的人出现肾脏问题的概率是常人的两倍;而肥胖的人出现肾脏问题的概率是常人的七倍[14]。但概率预测是会犯错的。不是所有肥胖的人都会有健康问题。回想政治播音员蒂姆·拉瑟特的例子(第10章),他58岁时死于心脏病。医生判断拉瑟特先生10年内死于心脏病的概率只有5%。这意味着与拉瑟特的身体状况相似的大多数人(100人中的95人)10年内不会患心脏病。拉瑟特先生就是那不幸的5%——他是一般趋势的例外。
然而,人们有时发现很难按照统计证据行事,因为这需要心理上的训练。例如,2003年美国食品药品监督管理局发布了一条健康警告,指出一种流行的抗抑郁药与青少年自杀存在潜在关联。很多医生担心,在统计基础上,这一警告会导致更多自杀事件。医生们承认,这个警告可能会让因为使用该药物而自杀的青少年减少,但会有更多的青少年因医生们不愿开这种药而死亡。事实上这的确发生了。用这种药进行治疗会给孩子们带来暂时的风险,但不治疗抑郁的话情况会严重得多。很多医生认为相较于这一警告所拯救的生命,更多的人会因为它而丧生[15]。这就是这一情况的得失计算。或者我们应该说:这是统计预测的计算。但是当世俗观念告诉你“事后追悔不如事前稳妥”时,你很难进行这种计算。在医学治疗中,“事后追悔不如事前稳妥”忽略了等式的另一半。它让我们的注意聚焦在那些可能被治疗伤害的人身上,却完全忽略了那些因无法获得治疗而被伤害的人。
心理学许多分支领域的知识都是通过统计预测来表述的,如认知心理学、发展心理学、组织心理学、人格心理学及社会心理学。相比之下,一些临床心理从业者声称他们可以超越群体预测,对特定个体的结果做出百分之百准确的预测。这种预测被称为临床预测或个案预测。与统计预测相反,在进行临床预测时,专业的心理学家声称,他们能对特定的个体进行预测,从而超越了对“一般人”或不同类别的人所进行的预测。临床预测似乎是对统计预测的一个非常有用的补充,但问题是,临床预测是无效的。
要证明临床预测有效,那么临床医生利用他与病人接触的经验以及病人的相关信息所做出的预测,就一定要比只对病人信息进行简单编码再输入统计程序所得到的预测更准确。简而言之,这种主张认为,临床心理从业者的经验使得他们能够超越研究所揭示的总体关系。因此,“临床预测是有效的”这一观点很容易验证。不幸的是,经过检验,这一观点被证明是错误的。
对临床预测与统计预测的比较研究所得的结果是一致的,并且这种情况已经持续了很长时间。自从保罗·米尔(Paul Meehl)的经典著作《临床预测与统计预测》(Clinical Versus Statistical Prediction)于1954年出版以来,数十年间有100多个研究表明,在几乎每一个曾经验证过的临床预测领域(心理治疗的结果、假释行为、大学生毕业比例、对电击治疗的反应、累犯问题、精神病住院治疗期的长短等等),统计预测都优于临床预测[16]。正因为如此,美国一些州在决定囚犯是否可以获得假释时,已经开始用统计方法取代假释委员会的主观意见[17]。
在多个临床领域中,研究者给临床心理医生一份来访者的信息,让其预测这个来访者的行为。与此同时,他们也把同样的信息加以量化,用一个统计方程加以分析,这一方程是基于先前研究所发现的统计关系开发的。结果都是统计预测比临床医师的预测更为准确。事实上,即使临床心理医生可以获得比统计方法更多的信息,统计预测仍然更准确。也就是说,临床心理医生除了拥有与统计预测相同的信息以外,还拥有与来访者个人接触和访谈所得到的信息,但是这些都没有让他的预测像统计预测那样准确。
这里我们有一个没能“接受错误以减少错误”的例子,这与前面描述的红蓝灯预测实验非常相似。被试没有依赖红灯更常亮这一统计信息并采用每次都预测红灯亮的策略(可获得70%的准确率),而是通过交替预测红灯或蓝灯亮,以力求每次都预测准确,结果准确率降低了12%(只有58%的准确率)。类似地,这些研究中的临床医生相信他们的经验给了他们“临床洞察力”,使其能够比依据来访者档案中的量化信息做出更好的预测。事实上,他们的“洞察力”根本不存在,他们的预测反而不如只依赖公开的统计信息所做出的预测。不过,应当指出的是,统计预测的优势并不局限于心理学,还扩展到许多其他临床科学如医学,以及其他领域如金融服务[18]和运动训练[19]。
关于这些表明统计预测优于临床预测的研究,保罗·米尔[20]说:“社会科学中没有其他争论像这个问题一样,如此之多的不同性质的研究都指向同一方向”(pp.373-374)。然而,令人尴尬的是,心理学领域并没有根据这一研究结果采取行动。例如,尽管大量证据表明个人面试实际上是无效的,该领域仍继续在研究生招生过程和心理健康培训的招生过程中使用这种方法[21]。而且,临床从业者仍在使用似是而非的论点对其依赖“临床直觉”而非更有效的整体预测进行合理化。
一个经常被用来反对统计预测的论点是,群体统计不适用于单个个体或单个事件。这个说法是一种陈词滥调,而且模糊不清。提出这一论点的人难道认为,如果一个人被迫玩一次俄罗斯轮盘赌,并且被允许选择一支膛内装有一发或五发子弹的手枪,那么你也会选择五发的那支而不是一发的那支吗?这是一个单一的、独特的事件,所以无关紧要,对吗?
要揭示“群体统计数据不适用于个体”这一论点的谬误,还有一个方法,那就是试试下面这个思想实验。问问你自己,你会对如下的科学发现做出怎样的反应:完成过多次某类手术的医生,下次类似手术的成功率会更高[22]。如果A医生对这类手术很有经验且失败率很低,B医生对这类手术没有实践经验且失败率很高,那么你愿意让哪一个医生为你做手术呢?既然你认为“概率不适用于单一案例”,你就不应该介意让没有经验的B医生给你做手术,或者用那把带五发子弹的手枪玩俄罗斯轮盘赌。如果统计数据不适用于单个案例,你就根本不应该在意概率。
承认在诸如预测心理治疗结果这样的领域中,统计预测优于临床判断,并不会使心理学领域的声誉因此而受损,因为在医学、商业、犯罪学、会计和家畜鉴别等众多专业领域也是如此。尽管总体上心理学领域没有什么损失,但那些以“专家”的身份开展活动(如在法庭上作证),或让人觉得他们对个案具有独特临床知识的从业者,不但会失去声望,而且收入可能受到影响。
事实上,如果我们养成“接受错误以减少错误”的习惯,心理学和社会都将受益。在试图为每一个不同寻常的案例寻找独特的解释时(就我们目前的知识水平而言,可能根本无法找到这样的独特解释),我们往往失去了对更常见的个案的准确预测。再回忆一下红蓝灯实验。“百分之百红色策略”对所有少数或不寻常的事件(蓝灯亮)做出错误的预测。如果我们采取“70%红灯、30%蓝灯策略”,更多地关注那些少数事件呢?我们现在可以预测到30个不寻常事件中的9个(30×0.30)。但代价是我们失去了预测21个多数事件的能力。我们现在只能正确预测49次红灯亮(70×0.70),而不是70次。临床领域的行为预测也有相同的逻辑。在为每一个案例编造复杂的解释时,我们可能确实会发现一些更不寻常的案例,但代价是失去了对大多数个案的准确预测,而对大多数个案来说,简单的统计预测效果更好。
强迫性赌徒有强烈的不去“接受错误以减少错误”的倾向。例如,21点玩家倾向于拒绝所谓的“基本”策略,该策略保证将庄家的赢率从6%或8%降低到1%以下。基本策略是一个长期的统计策略,强迫性赌徒之所以倾向于拒绝它,是因为他们相信最好的策略应该每次都奏效,并且要根据具体的情境来制定。这些强迫性赌徒抛弃了能保证为其少输数千美元的统计策略,而是徒劳地追求建立在每个具体情境的独特性基础上的临床预测。
在另一个领域中,统计预测也常常胜过临床预测,这就是体育界。很多人都看过2011年上映的电影《点球成金》,这部电影是根据迈克尔·刘易斯[23]的书改编的。它讲述了奥克兰运动家队的经理比利·比恩的故事。比恩否决了他的棒球球探们的“临床”判断(他们往往高度依赖于可见的身体特征),并依据过去表现的统计数据来评估未来的球员。相比于花掉的钱,他的球队可以说是超水平发挥了,他从棒球统计员那里借用的统计方法随后被许多其他球队所模仿。在许多其他体育项目中,统计方法都被证明优于“教练的判断”[24]。
当然,这里对临床预测与统计预测研究文献的讨论并不意味着个案研究在心理学中毫无价值。在引发对重要的、需要进一步研究的变量的关注上,个案信息是非常有用的。我们在这一节中所说的是,一旦确定了相关的变量,而且我们想使用这些变量来预测行为,那么最佳的方法就是测量它们,并使用统计方程来进行预测。首先,通过统计方法可以得到更准确的预测。其次,与临床预测相比,统计方法的优势在于,统计方程是公开的知识,所有人都可以使用、修改、批评或争论。相比之下,使用临床预测相当于依靠某个权威人士,他们做出的评估——正因为他们声称这些判断是自己所独有的——不受公众批评。
我们将以心理学家尼古拉斯·埃普利[25]对一个有趣的访谈问题的回答来结束本章:关于你所在的领域,你害怕被问到的问题是什么?埃普利挑了一个心理学家在平常交谈中经常被问到的经典问题:“你在分析我吗?”这个问题反映了第1章讨论的弗洛伊德问题。但埃普利接着解释说,这个问题的另一个方面更让他困扰;他认为这是一个“更深层次的问题”,我同意他的看法。埃普利声称这个问题“意味着作为一名心理学家,我确实能够分析你。问题在于,心理科学一直都是(而且将来也是)基于群体的事业……所有的科学都是这样运作的。以医学为例,医生开药是因为在药物试验中,治疗组的平均结果要比安慰剂组的结果好……但作为一名心理学家,我经常会遇到一些问题,这些问题要求我提供更加个人化的答案,这已经超出了心理学所能保证的范畴了。”