聚合性证据的类型

字数:4229

强调聚合重要性的原因在于，心理学的结论通常是建立在聚合性证据原则之上的。这一事实肯定没有任何独特或不同寻常之处（在其他很多的学科中，结论也不是基于单一的、决定性的实验证据，而是基于众多结果不甚明晰的实验的聚合）。但基于某些原因，这种情况在心理学中尤为突出。心理学实验的诊断性往往较低。也就是说，支持某个理论的数据经常只能排除一小部分替代解释，同时保留了许多理论作为可行的候选。其结果是，只有收集大量研究的数据进行比较之后，才能得出强有力的结论。

如果心理学家们公开承认这一事实，并努力解释其后果，那么公众就会有更好的理解。心理学家应该承认，尽管心理学是一门科学并且正在取得进展，但进展很缓慢，只有在经过有时令人痛苦的漫长的研究综合和争论之后，才能得出结论。

媒体宣称（无论是在纸媒、电视还是在互联网上）的突破性进展，总是应当引起怀疑，对心理学领域的主张尤其如此。例如，有时似乎媒体每三个月就要公布一种治愈孤独症的新疗法。但这样的主张已经不断地发生20多年了。既然20年前就公布了一种治愈孤独症的疗法，19年前也公布了一种，18年前又公布了一种……，怎么现在还在公布新疗法呢？这当然表明20年前公布的疗法根本不是真正的治愈方法。这可能是一个虚假的主张。不过，更有可能的情况是，在对孤独症形成聚合性证据的漫长科学进程中，媒体宣传的研究只是其中的一小步。但这些研究被媒体过早报道了，让公众误以为孤独症的研究是非累积性的，也就是说研究者不是在慢慢地构建知识，而是在寻找一颗“神奇子弹”。

在我职业生涯早期的一个专业研究领域——阅读和阅读障碍心理学——也有类似的情况。与孤独症一样，大概自1990年以来，媒体几乎每年都会公布一种治愈阅读障碍的“疗法”（神奇子弹）！例如，我随意翻阅了一大叠我收集到的这类过早公布的文章，看到1999年11月22日的美国《新闻周刊》杂志刊登了一篇题为《阅读障碍：阅读困难的孩子有了新希望》的封面文章[10]。2001年2月26日加拿大《国家邮报》上有一篇题为《解开阅读障碍之谜》的文章[11]。2003年7月28日美国《时代》杂志的封面标题是《克服阅读障碍：最新脑科学揭示了什么》[12]。最后还有一篇相对近期的文章，又是《新闻周刊》，日期是2016年3月31日，题为《电击有助于阅读障碍儿童提高阅读速度》[13]。这样的例子不胜枚举。这些文章中没有一篇有所谓的神奇子弹。我并不是说这些文章报道的研究不好或不对。要理解的重点是，媒体夸大了其报道的研究所具有的“神奇子弹”性质。它们都不是“治愈方法”，而是阅读障碍领域正在取得的缓慢进展中的一部分[14]。

媒体对注意缺陷/多动障碍（ADHD）也是如此——过早地公布惊人的新发现（神奇子弹）。媒体这种过早报告突破性进展的倾向，已经在ADHD领域得到了研究。一组研究者考查了20世纪90年代这十年间传播最为广泛的10篇关于ADHD的科学论文[15]。这10篇文章出现在347篇报纸的报道中（典型的标题是：“多动症与遗传缺陷有关”）。然后，研究者查看了接下来10年的研究，看看这10个研究结果能否得到重复。他们的发现证实了我们对媒体过早报道的担忧。10个研究中只有两个得到了强有力的重复验证。6个研究完全无法重复。另外两个研究结果有所减弱（研究结果不如原始报告中那么强）。简而言之，这些研究不配被宣传为“突破性进展”或神奇子弹。它们只是朝着最终理解ADHD所迈出的一小步，是令人困惑的（有时是错误的）。事实上，媒体对此类研究的过早炒作被讽刺地称为“新闻缺陷障碍”[16]。

在心理学领域，我们必须格外小心。例如，当某一特定心理学假设的证据仍不明确时，我们不应将其视为“已证实的理论”。本书的好几章都强调了要保持这种怀疑态度，例如提醒我们不要从相关中推断出因果关系，也不要接受见证叙述的证据。同时，对于知识的不完整性和结论的暂时性，我们不应反应过度，怀疑心理学是否永远无法达成强有力的结论。我们也不应该相信非理性的主张，认为心理学无法成为一门科学。从这个角度来看，聚合性证据原则可以被看作是对不要过度解释暂时性知识这一警告的一种平衡。尽管所有心理学研究都有缺陷，但聚合性仍然能够使我们得出许多合理、有力的结论。

要知道聚合性证据原则的力量有多大，最好的方法就是检验心理学中通过聚合性证据得出结论的一些领域。让我们看看一个例子。有一个研究问题可以阐明聚合性证据原则的重要性，即接触暴力电视节目是否会增加儿童攻击性行为的倾向。对于这个问题，目前的科学共识是：观看暴力节目（通过电视、电影或流媒体视频）似乎确实增加儿童做出攻击性行为的可能性。这种影响虽然不是很大，但确实存在。科学家对这个结论的信心并非来自于单一的、决定性的研究，而是来自许多研究结果的聚合[17]。这一研究结论不仅适用于暴力的电视和电影，也适用于暴力的视频游戏[18]，不过这种影响似乎也不大[19]。这些研究所采用的研究设计、被试人群和具体技术都有很大的差异，但现在我们应该已经清楚了，这些差异是该领域研究的优势，而非缺点。

电视网络高管和视频游戏行业的高管们，自然不愿接受他们所在行业对孩子产生负面影响的证据，他们发起了一场误导公众的运动，利用的正是公众未能认识到研究结论是建立在许多研究的聚合之上，而不是建立在决定这一问题的单一关键论证之上[20]。电视网络公司和视频游戏制造商们不断挑选出个案研究来进行批评，并暗示因为每一个研究都存在缺陷，所以不足以支持总体结论。殊不知，研究者常常坦率地承认某个研究存在缺陷。关键的不同之处在于，研究者并不认为承认某个研究存在缺陷，就否定了“影视暴力会对攻击性行为产生影响”这一普遍的科学共识，因为总体结论来自于研究的聚合。没有相关研究的特定缺陷的其他研究，其结果也指向了同一方向。这一研究或许本身也有问题，但另一些研究在纠正了这些缺陷之后，也得到了相似的结果。

例如，关于这个问题的早期研究揭示了儿童观看暴力节目的数量和攻击性行为之间的相关。当时的研究者就正确地指出，这些相关证据不能证明因果关系。有可能是第三变量导致了这种关联，也有可能是攻击性强的儿童选择去观看更多的暴力节目（方向性问题）。

但是科学共同体的结论并不仅仅基于这种相关证据。除了简单测量两个变量之间的相关，还有更为复杂的相关分析技术，这些技术允许研究者对因果关系做出一些初步结论（第5章提到的偏相关就是其中之一）。其中一种技术采用纵向设计，即在两个不同的时间点测量两个相同的变量——在这个例子中是电视暴力和攻击性。某些相关模式可以提示我们，两者是否有因果联系。这类研究已经有人做过，得到的结果表明：观看暴力节目的确会增加人们日后做出攻击行为的可能性。

有人说纵向相关技术同样存在争议，这也并非毫无道理，因为确实如此。但是关键在于，电视暴力和攻击行为之间存在因果联系这一结论，依靠的并不完全是简单或复杂的相关证据，因为研究者还进行了大量的实验室研究，在这些研究中，电视暴力的数量被直接操纵，而不仅仅是被评估。在第6章，我们讨论了如何将变量的操纵与随机分配等实验控制结合使用，以避免大多数相关研究中存在的解释困难问题。如果有两组儿童，在其他变量均得到了实验平衡之后，仍然表现出不同水平的攻击行为，而且，如果这两组儿童唯一的区别就是一组观看暴力节目，而另一组没有观看，那么我们就能做出正确的推断：被操纵的自变量（电视暴力）导致了因变量（攻击行为）的变化。大部分实验研究都得到了这个结果。

这些研究招致了一些“这不是真实的生活”的非议，上一章我们讨论过这一论点以及对它的错误使用。无论怎样，关于电视暴力的影响的结果并非针对某个特定群体的儿童，因为这些结果在美国的不同地区和世界的多个国家中都得到了重复。不同研究的具体实验设置和作为刺激的节目材料各不相同，但结果是一致的。

重要的是，不仅是从实验室实验，从现场实验中也得到了相同的结论。第6章讨论过一种叫作现场实验的研究设计，它也被用来研究电视暴力与攻击行为的关系问题。这种研究设计的存在提醒我们，不要认为实验情境和实验设计之间有着必然的联系。人们有时候认为，只有在实验室里才能操纵变量，只有在现场实验中才能研究相关。这种假设是不正确的。相关研究也常在实验室里进行，而变量操纵也常常发生于实验室之外。尽管有时在非实验室的环境下操纵变量进行现场实验（第6章提到了几个这类研究）需要相当大的创造性，但这类研究在心理学领域变得越来越普遍了。

当然，现场实验本身也有缺陷，但这些缺陷往往是其他研究的强项。总而言之，将观看电视暴力和儿童攻击行为增加联系起来的证据，依靠的并不仅仅是某个特定研究或某个特定类型的研究。

这种情形类似于吸烟和肺癌的关系。吸烟的人死于肺癌的概率比不吸烟的人高出15倍[21]。过去，烟草公司的老板们经常试图去误导公众，暗示吸烟导致肺癌的结论只基于某些特定的研究，然后再去批评这些研究[22]。恰恰相反，这个结论得到了大量聚合性证据强有力的支持。来自多个不同类型研究的数据，其聚合性是很强的，不会因为对某个研究的批判而发生实质性的改变。

事实上，类似肺癌病因这样的医学问题很适合在这里讨论。在医学诊断和治疗中，大多数问题的决策都建立在不同研究的聚合性证据基础之上。例如，当流行病学调查（可以说是一种对人类的现场研究，目的在于寻求某一疾病与环境及人口学因素的关联）、高度控制的动物实验以及人类患者的临床实验等不同类型的研究结果能够聚合起来时，医学界才会对一个结论抱有较大的信心。当所有这些类型的研究结果都指向一个相似的结论时，医学才会认为这一结论是可靠的，医生们才有信心根据这些证据进行治疗。

然而，上述三种类型的研究都有其各自的缺陷。流行病学研究通常是相关研究，变量之间存在虚假相关的可能性很高。实验室研究虽然能被高度控制，但实验对象往往是动物而不是人类。在医院进行的临床试验虽然是在真正的治疗环境中使用人类受试者，但仍有很多控制上的问题，但由于安慰剂效应以及治疗病人的医疗团队的期望效应，仍存在很多控制上的问题。尽管每一类研究都有问题，但是当不同方法所得的数据具有很强的聚合性时，医学研究者们就能够得出强有力的结论，吸烟和肺癌的例子便是如此。也正是这个聚合性证据原则，让心理学家可以从一个对行为问题（如电视暴力对攻击行为的影响）的研究中做出强有力的结论。

有时候，人们只是不知道聚合性证据原则。还有一些时候，为了推进一个政治议程或金融发展议程，人们似乎有意忽视这一原则。当然，烟草公司的专家和老板们试图混淆视听，让公众对吸烟导致肺癌的聚合性证据产生错误的理解，他们可能意识到了聚合性原则，只不过想对公众刻意隐瞒。

当下就有一个类似于吸烟导致肺癌的例子。科学上有很强的聚合性证据，表明在开车时用手机打电话（以及开车时看电子仪表设备）是极其危险的，并且是导致车祸的一个重要原因（即使打的是免提电话）。该结论的聚合性证据来自实验室研究、现场研究、相关研究、真实验研究以及与认知科学中的注意理论的联系。然而，手机公司和汽车公司跟之前的烟草公司一样，正试图向公众隐瞒一个事实，即围绕这一结论的科学证据是高度聚合的[23]。当科技公司和汽车公司试图通过在汽车中安装更多的交互式电子功能来获得竞争优势时，他们更是假装这些科学事实不存在。考虑到关于司机分心的科学研究，苹果公司开发的CarPlay车载系统，以及谷歌公司开发的Android Auto车载系统，存在的问题尤其突出[24]。科技公司和汽车公司仍在继续罔顾有关驾驶员风险的科学事实。虽然这些技术造成的死亡可以通过现有的电子修复技术来预防，但是这些现代企业的行径与几年前的香烟公司一样，不愿处理已知的消费者风险问题[25]。

聚合性证据：在缺陷中进步科学共识