选择偏差
“自我选择偏差”一词指的是人们自己选择进入一个特定的群体,而不是被随机分配的情况(见第6章)。自我选择会产生个人变量和环境特征之间的虚假相关——这种相关并不表示因果关系。相关的产生是因为具有特定行为或生物特征的人选择了特定类型的环境,而不是环境导致人们出现那些行为或生物特征。我们可以通过一些例子更好地解释自我选择。
让我们用一个简单的例子来说明选择偏差是如何产生虚假相关的。请快速说出美国的一个州名,在这个州里,由呼吸系统疾病导致的死亡率高于美国平均水平。当然,答案之一是亚利桑那州。什么?等等!亚利桑那州的空气不是很干净吗?难道洛杉矶的烟雾飘得那么远吗?难道凤凰城的郊区扩张已经如此严重了吗?不,这不可能!让我停下来想一想。或许亚利桑那州的空气的确很干净,而患有呼吸系统疾病的人都喜欢搬到那里,然后在那里去世。这样就对了。如果我们一不小心,就会出现上面所说的那种情形:我们可能会受到误导,以为是亚利桑那州的空气害死了这些人。
然而,选择因素并不总是那么容易辨别。这些因素经常会被忽略,尤其是当我们预先期望看到某种因果联系的时候。诱人的相关性证据加上预设偏见,即使最聪明的人也会被蒙骗。下面让我们看一些具体的事例。
临床心理学的一个例子可以表明,选择偏差问题是多么难以发现和“有违常理”。研究数据有时会表明,接受心理治疗的人在各种进食或成瘾问题如肥胖、吸食海洛因、吸烟上的治愈率,都要低于没有接受过心理治疗的人。你知道了原因会很高兴,并不是心理治疗使得成瘾行为更加难以改变,而是那些寻求心理治疗的人,其成瘾问题更复杂和棘手[17],而且很少能够自愈。简而言之,与“轻微患者”相比,“严重患者”更多地寻求心理治疗。这种“严重患者”自我选择偏差是如此普遍,以至于被称为临床医生的错觉[18]。这种错觉是指,临床医生倾向于将他们看到的极端病例的特征过度推广到人数多得多的轻微患者中,而临床医生较少接触到轻微患者。
当组织或政府推出所谓的记分卡来给医生打分时,这种自我选择偏差就会发挥作用。纽约在几年前就这样做了,当时他们开始公布心脏病医生治疗的死亡率[19]。问题在于,心脏病医生只要挑选容易的病例,避免最严重的病例,就能提高自己的评分。
当选择效应出现时,匆忙下结论会导致我们在现实世界中做出错误的选择。许多妇女曾被鼓励在绝经后接受激素替代疗法(HRT),因为有报告称这种疗法降低了患心脏病的概率。但早期得出该结论的研究,只是对选择接受激素替代疗法的女性(即自我选择该疗法)与那些没有选择接受该疗法的女性进行了比较。然而,后来的研究者进行了真实验研究(使用随机分配,见第6章),却发现该疗法实际上根本没有降低患心脏病的可能性[20]。早期采用自我选择取样的研究之所以表明激素替代疗法似乎有效,是因为选择接受该疗法的女性比不接受该疗法的女性更活跃,更不肥胖,更不容易吸烟。
选择偏差会导致一些令人惊讶的结论。在第二次世界大战期间,一名分析人员试图根据返航飞机上的弹孔分布模式来决定在飞机上放置额外护甲的位置[21]。经过分析后,他决定在返航飞机上没有弹孔的地方增加护甲,而不是在有很多弹孔的地方。他的理由是,飞机的所有部位都有被子弹击中的可能。根据返航飞机上弹孔出现的位置,他得知飞机的这些地方被击中,但仍能返航。返航飞机上没有弹孔的区域并非不会被击中,而是被击中该区域的飞机没能返航。因此,返航飞机上没有弹孔的地方才需要更多的护甲!
利用选择效应“设法”让人们做出因果推论是很容易的。看看这个说法:共和党支持者比民主党支持者更享受性爱。这绝对是事实。统计数据显示,支持共和党的选民对性生活的满意度高于支持民主党的选民[22]。是什么让共和主义更性感?
你猜对了。这是错的。政治不会改变任何人的性生活。那么,这些数据又作何解释呢?可以从两个角度来理解。首先,已婚人士比单身人士更倾向于投票给共和党。其次,调查显示,已婚人士对性生活的满意度高于单身人士。支持共和党不会改变任何人的性生活;只是性生活满意度较高的人群(已婚人士)更倾向于投票给共和党。
诸如“性感的共和党支持者”这样的例子告诉我们,当可能存在选择效应时,我们务必小心谨慎。经济学家史蒂芬·兰兹伯格[23]证明了,那些显示生产力与技术使用相关的数据,有多少可能被解读为因果关系,而实际上这些数据只是包含了选择效应的相关性数据。在企业内部,通常是生产率最高的员工得以使用最先进的技术。因此,在计算相关性时,生产力与技术使用产生了相关。但这并不是说技术提高了这些员工的绩效,而是因为他们在接受先进的技术之前,工作效率就已经领先了。
在现实生活中,有一个重要的健康问题与选择效应密切关联,那就是关于饮酒对健康是否有害的争论。大量研究发现,适度饮酒者不仅比经常饮酒者健康,而且比不饮酒者健康[24]。现在你我都知道了选择效应,所以不会试图劝说任何戒酒的人通过少量饮酒来改善健康。这是因为人们在决定喝多少酒时自我选择了归入哪个饮酒群体。雷宾[25]解释说,研究发现,适度饮酒的人在他们所做的一切事情上都是适度的。他们适度运动,适度饮食,很多事情往往都做对了。当然,问题在于,我们无法知道是适度饮酒导致了积极的健康结果,还是适度饮酒群体的所有其他良好特征(运动水平、饮食等)导致了这一结果。由于选择效应,我们不能说适度饮酒就是原因。
同样,一些相关研究表明,喝葡萄酒的人比喝啤酒的人以及喝白酒或鸡尾酒的人更健康[26]。问题是,喝葡萄酒的人通常比喝啤酒或白酒的人有更健康的习惯,而且在人口统计学上也有所不同。例如,爱喝葡萄酒的人较少吸烟,受教育程度更高,也更富有。当研究使用统计回归技术来控制这些因素时,积极的健康结果与饮酒之间的联系就消失了。
总之,本章提供给读者的规则很简单:留意选择偏差的存在,避免只根据相关数据来做出因果推论。不可否认,我们确实可以利用复杂的相关设计来做出有限的因果推论。同样不可否认的是,相关证据有助于证明假设的聚合性(见第8章)。然而,对于心理学知识的消费者来说,宁可因为怀疑而犯错,也不要被那些错误地暗示因果关系的相关所欺骗。