“大二学生”问题

字数:2784

许多人很关注心理学研究成果的代表性，他们的质疑集中在参与研究的被试上，而非实验设计的细节。我们这里要讨论的问题，有时被称为“大二学生问题”，它是指由于大量的心理学研究是以大二学生作为被试的，所以人们质疑其研究结果是否具有可推广性。心理学家关注这个问题，是因为它在某些研究领域中的确是问题。尽管如此，我们还是要客观地看待它，并且应该知道心理学家对这一批评有几种合理的回应。以下列出三点：

这种批评并没有否定过去的研究结果，而只是呼吁更多的研究结果，以便对理论的普遍性进行评估。由于我们先前收集了大二学生的数据，即使从其他人群中获得了相反的数据，因而必须对理论做出相应的调整，也只会使理论更加精确，而不会完全否定它。即使在最糟糕的情况下，重复实验完全失败，我们也只能说，建立在大二学生数据基础上的理论仅仅是不够全面，而不能说该理论一定是错误的。

在心理学的许多领域里，大二学生问题根本就不是问题，因为这些领域所研究的心理过程是非常基本的（如视觉系统），几乎没有人相信这些心理过程的基本组织与被试样本的人口统计学特征有关。美国蒙大拿州人的大脑功能组织和视觉系统的性质，与佛罗里达州人（或阿根廷人）是非常相似的。

研究结果的重复确保了这些结果在很大程度上可以推广到不同的地理区域，而且在一定程度上，也能推广到拥有不同社会经济地位、家庭变量和早期教育经历的人群中。75年前参与研究的大学生被试样本基本来自精英群体，而如今大学里的研究被试来自各种各样的家庭背景。

然而，在心理学的某些研究领域中，不承认大二学生问题是个真正的问题，也是不明智的。不过，心理学家正在努力纠正这个问题。例如，发展心理学家几乎从一开始就很关注这个问题。该领域每年都有成百上千的研究者，通过在其他不同年龄的被试身上实施与大学生被试相同的研究，来检验很多用大学生被试得出的理论和发现。用不同年龄组的人作被试并不总是能重复用大学生被试得出的结果。要是结果总是一致的话，发展心理学将会变得非常枯燥。但这一数量庞大的心理学家群体正致力于将年龄因素纳入心理学理论，证明该因素的重要性，并确保发展心理学的宏大理论，不是只建立在从大学生那里收集的薄弱的数据基础之上。

心理学家也进行跨文化的研究，以评估研究者只在北美的子群体中所发现的心理过程是否具有可推广性。在跨文化比较研究中，不同文化间呈现出相似趋势的例子有很多[34]，但也有不少跨文化研究没有重复出与美国大二学生相似的趋势[35]。不过，当这些差异出现时，它们提供了一些重要信息，让人们了解到这些理论和结果会因文化背景而有所不同[36]。

正如先前提到的，认知心理学的研究成果已经通过了可重复性这一基本的检验。信息加工的许多基本规律在全世界几十个实验室中得到了验证。人们往往不了解，如果密歇根大学的一名心理学家取得了一项重要的研究成果，那么类似的实验很快就会在斯坦福大学、明尼苏达大学、俄亥俄州立大学、剑桥大学、耶鲁大学、多伦多大学以及其他大学进行。通过这种检验，我们很快会知道这项结果是不是由于密歇根大学被试的特殊性或研究的实验环境所造成的。

认知、社会和临床心理学家也研究了人类决策的各种策略。在这个研究领域中，大部分的原始研究都是在实验室里完成的，使用大学生作为被试，而且采用高度人为化的任务。然而，从这些研究中得出的决策行为原理，已经在很多非实验室环境中被观察到，包括银行家对股票收盘价的预测、实际的赌场下注、精神病医生对病人行为的预测、经济市场、军事情报分析、全美橄榄球联赛的下注、工程师对修理时间的估计、房地产经纪人对房价的估计、商业决策以及医生的诊断。现在，这些原理也被应用于个人理财这一非常实用的领域中[37]。

互联网也为解决心理学的大二学生问题提供了一个途径[38]。伯恩鲍姆[39]在实验室里进行了一系列的决策实验，又通过互联网招募了一些参与者。实验室中得到的结果全部在互联网样本中得到了重复，而后者的样本来源要比前者广泛得多——包括来自44个国家的1224名参与者。高斯林等人[40]研究了一个很大的互联网参与者样本（361703人），并将他们的结果数据与已发表研究中的传统样本进行比较。高斯林等人发现，互联网样本在性别、社会经济地位、地理区域和年龄等方面更多样化。重要的是，他们发现，心理学许多研究领域的研究结果，如人格理论，用互联网和传统方法的研究所得出的结果是相似的。

在最近的心理学研究中，亚马逊劳务众包平台（简称MTurk）被广泛地用于测试至少与大二学生有些不同的被试样本[41]。MTurk是一个在线的劳务市场，该市场的人员愿意以较低的报酬完成实验任务。MTurk的人员年龄比大多数研究所使用的大学生大得多（平均超过30岁），但他们在其他方面是不具有代表性的（不怎么信仰宗教、就业不足等等）。尽管如此，研究者还是在使用MTurk样本对实验室中发现的许多实验效应进行检验，并以中等的频率得到重复。互联网网站也越来越多地被用于心理学研究[42]。这些网站也提供了与典型的大二学生非常不同的被试类型。

当然，并不是所有的心理学研究结果都能重复。相反，重复失败的情况确实会发生[43]。在过去几年中，心理学中的重复失败率一直是一个引发激烈讨论和争论的问题[44]，另一个问题是心理学领域的重复失败率是否高于其他学科。这个问题很难回答，但心理学报告重复失败的可能性似乎比物理学要小[45]，这表明心理学在提高其标准方面还有很长的路要走。然而，生物学和医学中重复失败的情况似乎与心理学一样普遍[46]。心理学中的元分析（第8章将讨论）数量正在增加，可见该领域关注其研究结果的一致性[47]。

虽然如此，仍有令人振奋的证据表明，大量源自实验室的心理学研究结果确实在真实的生活环境中得到了重复（尽管并非全部如此）。在迄今为止最全面的一项分析中，米切尔[48]对217个实验室与现场比较研究的数据进行了元分析（见第8章），这些比较研究来自心理学的不同领域，包括工业组织心理学、社会心理学和发展心理学。他发现，在实验室和现场研究中观察到的结果有很大程度的一致性，但是不同的心理学领域之间差异很大。实验室与现场研究结果的一致性程度最高的领域是工业组织心理学，而社会心理学则要低得多。在217项比较中，有187项的实验室和现场研究结果在方向上是一致的，但也有30项的实验室与现场研究结果在方向上是相反的，其中大多来自社会心理学领域。

如果重复失败的情况时有发生，那么心理学的研究成果还能应用吗？如果科学家没有在所有的细节上达成一致，知识和理论还没有确立起来，那么如何证明这些结果的应用是合理的呢？对心理学发现之应用的这种担心很常见，因为人们没有意识到，在其他科学领域中，结果和理论经常在确立之前就开始应用了。当然，第2章已经清楚地阐述过，所有的科学理论都有可能被修正。如果我们在应用科学研究的结果之前必须确定知识是绝对正确的，那么就不会有任何应用了。所有领域的应用科学家都尽可能地使用目前最准确的信息，同时他们也知道这些信息有可能是错误的。

许多不是科学家的人认为医学比心理学更科学。但是医学从临床印象走向基于科学的实践，花了与心理学一样长的时间[49]。同时，医学实践中的不确定性也不亚于心理学实践。例如，医学中许多与治疗有关的重要发现经常无法重复，诊断结果常常取决于医生而不是疾病，新技术往往导致过度治疗，却没有提高治愈率[50]。医学研究者仍在争论在不同年龄段使用乳腺X光检查的利弊[51]。每天服用低剂量阿司匹林来预防心血管疾病的好处和成本仍然存在争议[52]。心理学的知识具有概率性和不确定性，但大多数其他的生物社会科学又何尝不是如此呢？

心理学理论的应用客观看待真实生活和大二学生问题