未能使用样本大小信息
请思考下面两个问题[15]:
一个小镇里有大小两所医院。在大医院里每天大约有45个婴儿出生,小医院每天大约15个。如你所知,大约有50%的婴儿是男孩,但具体的百分比每天都不一样,有时候高于50%,有时候低于50%。每所医院都记录了一年内出生的男婴比例高于60%的天数。你认为哪一所医院记录的天数多?
a. 大医院
b. 小医院
c. 基本一样
假设一个容器里装满了球,其中2/3的球是一种颜色,其余1/3是另一种颜色。一个人从中拿出5个球,发现有4个是红色,1个是白色。另一个人从里面拿出20个球,发现12个是红色,8个是白色。哪一个人会更加确信这个容器里有2/3的球是红色、1/3的球是白色,而不是相反?每个人应该给出什么赔率(大部分为红球与大部分为白球的概率比——译者注)?
对于第一个问题,大多数人回答“基本一样”。剩下的人各有一半选择大医院或小医院。正确的答案是小医院,所以超过75%的人都给出了错误答案。答错是由于人们没有认识到样本大小在这个问题中的重要性。当其他因素相同时,根据较大的样本总是能够更精确地估计出总体的真正数值。因此,在任何一个指定的日子,较大的医院由于有较大的样本,男婴出生的概率更趋近于50%。相反,小的样本总是倾向于偏离总体的真正数值。因此,小医院会有更多的天数记录了与总体的真正数值偏差较大的男婴比率(60%、40%、80%等等)。
在回答第二个问题时,大多数人认为5个球的样本提供了更令人信服的证据,能证明这个容器里的球大多数是红色。事实上,概率恰恰与之相反。对于5球样本,容器里大部分为红球的赔率是8:1。而对于20个球的样本,这个赔率是16:1。尽管在5球的样本中,红球所占的比例更高(80%,在20个球的样本中为60%),但另一个样本的大小是其4倍,这一事实早已弥补了红球比例较低的劣势,因此20球样本更有可能是对球的比例的准确估计。然而,大部分被试的判断被5球样本中红球比例更高这一点所支配,并且没有充分考虑到20球样本更高的可信度。
这两个问题说明了一个有关样本大小的非常有用的原则:较小的样本总是会产生更多的极端值。心理学家丹尼尔·卡尼曼[16]举了一个例子,说明如果不运用这一原则,我们就会在不需要因果理论的时候去徒劳地寻找。他指出,一项针对美国3141个县的研究发现,肾癌发病率最低的县往往是人口稀少的农村县。卡尼曼[17]指出,对于为什么会出现这种情况,人们很容易想到一个因果理论:“农村的生活方式较为干净卫生——没有空气污染,没有水污染,食物新鲜且不含添加剂”(p. 109)。这个因果理论唯一的问题是,它不能解释同一研究的另一个发现:肾癌发病率最高的县往往也是人口稀少的农村县!如果先告诉我们这一事实,我们可能会想出这样的解释,即农村地区有更多的人吸烟、喝酒及摄入高脂肪食物。但是,这一解释以及先前对低发病率县的解释,都没有切中要点。这里的问题就是之前讨论过的医院问题的现实生活版。人口稀少的农村县是小样本,必然会产生各种类型的极端值——可能极高,也可能极低。
许多人难以认识到他们所处的情境也会涉及取样。也就是说,他们难以意识到自己看到的是一个样本,而不是总体。未能意识到这一点,会使他们忽略这样一个事实,即某一样本的测量结果会受到取样误差的影响。例如,当医生让你去验血时,从你身上采集的是血液样本,医生评估的也是这个样本,而非你整个血液系统的状态。这里的假设是,这个样本能代表你的整个系统;但这个假设是概率性的,只能在一定程度上是正确的。因为样本中的细胞及其组成和性质必然与整个系统的真实情况有一些偏离,而血液检验又无法检测你的整个血液系统,所以血液检验总归会有一些误差。简而言之,你的医生正在从一个极小的样本中对你的整个血液组成做出假设。
同样,肿瘤活检也是如此。因为活检只是从一个较大的肿瘤中提取一个小样本,所以会存在一些误差。医学作家塔拉·帕克-波普[18]在讨论对疑似前列腺癌所做的活检时提到,一种非常常见的活检样本只占前列腺大小的1/3000左右。她引用的证据表明,大约有20%的样本存在分期和分级错误。我们需要意识到的一点是,我们在测量行为时也是一样的。我们经常抽取一个小样本来代表一个大得多的行为总体。