第4章 你好,数据新闻学

字数:4860

我们正处在一个激动人心的历史转捩点,每一个领域都在进行计算化和数据化的变革。现在已经出现了计算社会科学、计算生物学、计算化学或其他数字人文学科。视觉艺术家使用诸如Processing之类的编程语言来创建多媒体艺术作品。3D打印技术让雕塑家能够更深入地探索艺术的物理可行性。想想已取得的进展,就已经很让人激动了。然而,虽然生活已走向计算化,人们却一点也没有变。公开了政府数据,不代表消灭了腐败。由科技促进的“零工经济”与工业时代初期以来的劳动力市场存在完全相同的问题。传统记者调查社会问题,是为了推进正面的社会变革。在如今的计算化和数据化世界中,调查性新闻的实践必须依靠高科技。

有许多人拓宽了新闻学中应用技术的边界,他们称自己为“数据记者”。“数据新闻学”这个词有点笼统。有些从业者从事数据可视化的工作。《纽约时报》的《结语》(The Upshot)栏目的编辑阿曼达·考克斯就是视觉新闻这一领域的专家。她在2012年[1]的报道《细解通货膨胀》(“All of Inflation’s Little Parts”)为她赢得了美国统计协会的统计新闻报道奖。这篇报道以美国劳工统计局每月编纂的消费价格指数(CPI)为基础数据作为衡量通货膨胀的指标。在这篇报道的图形中,有一个半圆被拆分成很多彩色马赛克形状的图块。每个图块的尺寸分别对应美国当年消费商品领域的比例。

其中,有一个图块表示汽油占消费额的5.2%。汽油消费所属的大类——交通,占人均收入的18%。鸡蛋的占比小一些,在占总额15%的食品饮料类别中颇为抢眼。“澳大利亚高昂的原油价格和干旱,是导致食品价格上涨速度超过1990年的原因之一。”考克斯在文章中说,“欧洲对鸡蛋的高需求也对这一类商品的价格产生了影响。”[2]她的文章和这些吸睛的图形为人们打开了一扇窗,让我们可以了解全球居民如何通过一张复杂的贸易网络连接在一起。鸡蛋也是全球化商品?当然了!如今的国家已经不再自己生产所需的全部食品了,食品市场贸易已经全球化了。澳大利亚西部有一条巨大的小麦带。根据澳大利亚政府农业、渔业和林业部门的数据,2010年到2011年,澳大利亚的食品出口额高达271亿美元。当时,小麦带遭遇干旱,产量下降。美国的家禽饲料以谷物为主,玉米是首选。但如果小麦的价格比玉米的价格低,农场主就会优先选择小麦。全球小麦供应量减少,意味着小麦的价格变高。那么,家禽养殖户要么为小麦支付高价,要么转而购买同样昂贵的玉米。如果养殖户选择了高价饲料,他们会将成本转嫁到下游,从而提高鸡蛋的价格。而超市的消费者就是成本转嫁的对象。这些数据可以让我们了解澳大利亚的干旱是如何导致北美超市的鸡蛋价格上涨的。这也是一篇关于全球化、万物互联,以及气候变化对环境影响的优秀报道。考克斯深谙世界上复杂系统的运作原理,她运用讲故事的技巧、技术能力,加上敏锐的设计意识,创作了这样一个令人赏心悦目的基于数据和计算的作品。这个作品既有干货,又吸引眼球。

其他数据记者也一样,自己收集并分析数据。2015年,《亚特兰大宪政报》(Atlanta Journal-Constitution)收集了有关医生性侵患者的数据。该报的一位调查记者发现,在佐治亚州,每三名因与病人发生不当性行为而受处罚的医生中,就有两名被允许再次执业。这个发现本来已经足够了,但是这位记者想知道,佐治亚州的这一情况是典型案例还是不寻常案例。于是,他们组织了一个调查小组。调查小组搜集了美国各地的数据,分析了1999年到2015年超过10万份针对医生的医委会调查令。他们的发现令人咋舌——全国各地都有医生因虐待患者而获罪,却又获准恢复行医资格。其中最糟糕的一则案例可谓骇人听闻,一名儿科医生厄尔·布拉德利曾用棒棒糖麻醉了1 000多名儿童,并在视频中对他们做出猥亵行为。2010年,他被指控犯有471项强奸罪和猥亵罪,并被判处14项终身监禁,不得假释。谢天谢地,《亚特兰大宪政报》的报道引发了人们的关注,并且带来了积极的制度变革。[3]

在佛罗里达州,《太阳先驱报》的数据记者曾坐在高速公路边,记录警车经过的时间;后来,他们要求从收费站的警察应答器中获取数据,发现当地警察普遍以危及公民安全的高速行驶。调查结束后,警察超速驾驶的比例下降了84%。这一戏剧性、积极的公众影响使该报道获得了2013年普利策公共服务奖。[4]佛罗里达州有很多优秀的数据新闻。首先,他们叙事的方式是无穷无尽的。“佛罗里达州早已超越加州,成了一个稀奇古怪、异乎寻常、莫名其妙的地方。”2013年,杰夫·库纳思在《奥兰多哨兵报》(Orlando Sentinel)中写道。[5]美国政府的一举一动在默认情况下都是公开的,而佛罗里达州还有“阳光法律”,保证公众可以访问这些资料,也保证了相关磁带、照片、影片和录音都是公开的。大限度地公开档案法条意味着人们可以轻易获取政府的官方数据,这也就意味着大量数据新闻都与佛罗里达州有关。

有些数据记者会从官方渠道获取数据,并对其进行分析,以找到看点。这些看点可能会揭露一些令人不快的真相。比如有这样一个成功的学产合作案例,斯坦福大学数据新闻实验室的数据记者谢里尔·菲利普斯组织过一个课程项目,她的学生申请查看了50个州的警察对公民的截停记录数据。他们分析了全国范围内的情况,并在网上公布了调查结果,供其他记者取用。斯坦福的记者和其他记者都发现,在每个州,有色人种被警察截停的情况都要比白种人多得多。[6]

数据新闻学还包括对算法的问责报道,这正是我所从事的领域的一角。算法,或计算过程,正被越来越多地用于替代我们做决策。算法决定了我们在网上购物时看到的订书机的标价,也决定了我们购买医疗保险的价格。当你通过线上招聘网站提交求职申请或投递简历时,就会有一个算法决定你是否符合标准,符合则交由人类做下一步评估,否则直接回绝你的申请。在民主政体中,新闻自由的职能一直是问责决策者。而算法问责报道也承担着同样的职能,并将其应用到计算世界。

2016年非营利机构ProPublica的“机器偏见”调查就是一个典型的例子。[7]ProPublica的记者发现,司法量刑使用的一种算法对非裔美国人有偏见。警察会让被逮捕者填写一张问卷,然后将答案录入计算机。计算机中一个名为“替代性制裁惩教罪犯管理”(Correctional Offender Management Profiling for Alternative Sanctions,简称COMPAS)的算法,会计算出一项分数,“预测”出该疑犯在未来犯罪的可能性。这个分数是给法官做参考的,目的是让法官能够在量刑时做出更为“客观”且由数据驱动的决定。然而,其结果是非裔美国人获得的刑期比白种人更长。

显然,技术沙文主义蒙蔽了COMPAS的设计者,他们意识不到他们的算法可能会对人们造成怎样的伤害。如果你相信计算机做的决定比人类做的决定更高明,那么就代表你全然信赖那些输入系统的数据的有效性。人们常常忘记“无用数据入、无用数据出”这个原则——如果你输入的是垃圾,那么输出的也一定是垃圾。如果你特别希望计算机是正确的,那就更容易忽视这一原则。我们要对这些算法以及算法的制作者存疑,看算法是在让世界变得更美好还是更糟糕,这一点非常重要。

在新闻报道中使用数据不是什么新鲜事,这件事要比大多数人想象的更早。最早由数据驱动的调查报道出现在1967年。当时,菲利普·迈耶使用社会科学的研究方法和一台大型计算机,为《底特律自由报》分析了有关底特律种族暴动的数据。迈耶在报道中写道:“在社论作者中间流行这样一个理论,说在底层经济阶层,暴动者是最失意和无助的,他们是因为没有其他出路或无法表达诉求才闹事的。这一理论其实并未得到数据支持。”[8]迈耶进行了一场大规模调查,并使用大型计算机对结果进行了统计分析。他发现,暴动的参与者来自社会各阶层。他的这篇报道获得了普利策新闻奖。迈耶把新闻报道中社会科学对数据的应用称为“精确性报道”。

后来,台式计算机进入了新闻编辑室,记者们开始使用电子表格和数据库来跟踪数据,挖掘新闻。“精确性报道”也就演化成了“计算机辅助报道”。计算机辅助报道是电影《聚焦》(Spotlight)中使用的新闻调查类型。这部电影的原型是《波士顿环球报》(Boston Globe)获得普利策新闻奖的调查故事——对性侵儿童的天主教牧师以及掩盖问题的多方势力的调查。为了跟踪数以百计的案件、数百名牧师和涉案教区,记者使用了电子表格和数据分析技术。在2002年,这是最先进的调查手段。

随着互联网的发展和新数字工具的诞生,计算机辅助报道又演化成如今的“数据新闻”,包括视觉新闻、计算新闻、绘图、数据分析、机器人构建和算法问责报告(当然还有其他许多内容)。数据记者首先是记者。我们使用数据作为原始资料,使用各种数字工具和平台来讲述新闻。这些故事有时是爆炸性新闻,有时是娱乐性新闻,有时是调查性新闻。这些新闻的信息量通常都很大。

成立于2008年的ProPublica与《卫报》一直是这个领域的领先者。[9]ProPublica由《华尔街日报》资深记者保罗·斯泰格尔创办,并得到了慈善组织的支持,很快就成为调查性新闻界的巨头。斯泰格尔有很深厚的调查从业背景:1991年到2007年,他担任《华尔街日报》的执行主编,在此期间,该报新闻编辑部的成员一共获得16次普利策新闻奖。2010年5月,ProPublica的记者初次斩获普利策奖,此后又多次获奖。2011年,他们获得普利策国内报道奖。这个奖项在此之前从未颁发给非刊印版的新闻报道。

普利策的许多获奖项目都与数据新闻沾边,要么报道内容包括数据新闻,要么团队中有数据新闻记者。记者兼程序员阿德里安·霍洛瓦蒂创建了一个名为“Django”的程序框架,许多新闻编辑室都在使用。2006年9月,霍洛瓦蒂在网上发表了一篇振聋发聩的文章——《新闻网站必须做出这项基础变革》(“A Fundamental Way Newspaper Sites Need to Change”)。[10]他主张新闻编辑室要超越传统的新闻报道模式,将结构化数据融入记者的工作方式中。他这篇激昂的文章,是马特·韦特和他的团队创建“政治事实”(PolitiFact)网站的源头。2009年,这个网站获得了普利策奖。韦特谈到网站的发布时写道:“这个网站将简单而古老的传统报纸概念从本质上完全重新设计了一通。我们有政治‘真相小分队’,一名记者盯一个竞选广告或者竞选演说,进行事实核查,然后报道出来。我们采取传统的报纸概念,掰开揉碎,重新组装成一个由数据驱动的网站,并且对2008年的总统大选做了报道。”[11]

霍洛瓦蒂接着又创建了EveryBlock,这是一个整合犯罪数据和地理定位的新闻应用程序先驱。它是第一个使用谷歌地图API的程序。在此之后,谷歌地图功能就对所有人开放了。[12]

2009年,《卫报》开始踏足数据新闻。当时,《卫报》的一群记者和程序员发动读者,通过众包的方式研究了45万条英国国会议员的开支记录。此前曾爆出国会议员挪用财政资金支付家庭和办公费用的丑闻。《卫报》为此另辟蹊径,组织了这场众包式调查。《卫报》团队积累了使用算法分析大量泄露文件的专业经验,后来,他们用这种方法分析了阿富汗和伊拉克的战争日志。[13]

数据新闻领域有一个重要项目,是《华尔街日报》对价格歧视现象的调查。[14]诸如史泰博和家得宝之类的大型连锁超市在他们的网站上,会根据邮政编码判断访客可能所在的地区,并且对不同地区的访客收取不同的价格。通过使用计算分析工具,记者发现,邮政编码所在地区较富裕的顾客比邮政编码所在地区较贫穷的顾客收费低。

学术研究是数据新闻的重要补充。数据记者倾向于依赖既定的学术研究方法。作为一名好记者,首先要知道何时求助于相关学科的专家;其次要认清专家和骗子的区别。数据记者要整合各种领域的专业知识。2008年,佐治亚理工学院教授伊尔凡·艾萨组织了第一次计算+新闻研讨会。在这个年度活动中,记者们与来自通信、计算机科学、数据科学、统计、人机交互、视觉设计等领域的研究人员聚集在一起,分享他们的研究,并促进理解。会议的联合创始人之一、西北大学教授尼古拉斯·迪亚科普洛斯写了很重要的论述,指出逆向工程算法是算法问责决策者的一部分。他在论文《算法的责任——计算结构下的新闻调查》(“Algorithmic Accountability:Journalistic Investigation of Computational Power Structures”)[15]中,描述了他和其他记者在研究算法黑箱时的工作。

2012年,C.W.安德森发表了研究论文《关于计算与算法新闻的社会学》(“Towards a Sociology of Computational and Algorithmic Journalism”)[16],他将迈克尔·舒德森于2007年至2011年在费城一家报社进行田野调查时总结出的四种从民族志的角度研究新闻数据的方法结合起来。尼基·厄舍在她的《互动新闻:黑客、数据和代码》(Interactive Journalism: Hackers, Data, and Code)[17]中也为民族志研究法提供了一些新的脉络。这本书基于她所做的田野调查以及她在《纽约时报》、《卫报》、ProPublica、纽约公共广播电台、美联社、美国国家公共广播电台和半岛电视台英语频道的一些访谈编写而成。辛迪·罗亚尔关于记者编写代码[18]的研究非常重要,这有助于理解记者在工作时如何高效利用计算机程序,理解新闻院校如何将计算机技能融入课程。在2016年的著作《民主侦探》(Democracy’s Detectives)中,詹姆斯·T.汉密尔顿概述了数据驱动的调查性新闻对公众利益的重要性,以及这种公共服务的高成本。影响力大的调查数据新闻报道的制作成本高达数十万美元。汉密尔顿写道,“新闻的成本可能多达数千/数万美元,但是可以产出数百万美元的收益,这些收益广泛分布于某一社会群体中。”[19]

2010年,蒂姆·伯纳斯——李强调了数据新闻领域需要数据支撑。他说道:“记者需要成为数据的行家。以前,记者去酒吧跟人聊天就能挖掘到新闻。现在,他们有时还是会这样干。但是,如今做新闻还得学会阅读数据,使用工具来分析数据,并且找出其中有意思的部分。此外,不偏不倚地看待数据分析结果,并且按最合适的方式整合数据,把握国内现状,从而真正去帮助人们。”[20]2012年,纳特·西尔弗发布FiveThirtyEight.com,并且出版了《信号与杂音》(The Signal and the Noise)一书。此时,“数据新闻”这个词语已经在调查记者中广泛传开了。[21]

计算机在发展,而人类的本性却没有进化。人只有被监督,才能真正诚实。我希望本书能让你学会像数据记者一样思考,这样,你就可以质疑技术上的虚假说辞,发现当今计算系统中的不公与不平等。运用记者这一职业的怀疑特性来质疑可能的错漏之处,能让我们远离盲目的技术乐观主义,让我们的看法变得更加合理和中立。我们的生活才能因技术而变得更好,而不至于受到技术的牵制,或需要对技术做出让步。

[1] 根据《纽约时报》网络资料,阿曼达·考克斯的这篇报道发表于2008年。——译者注

[2] Cox, Bloch, and Carter, “All of Inflation’s Little Parts.”

[3] Hart, Robbins, and Teegardin, “How the Doctors & Sex Abuse Project Came About.”

[4] Kestin and Maines, “Cops Hitting the Brakes——New Data Show Excessive Speed ing Dropped 84% since Investigation.”

[5] Kunerth, “Any Way You Look at It, Florida Is the State of Weird.”

[6] Pierson et al., “A Large-Scale Analysis of Racial Disparities in Police Stops across the United States.”

[7] Angwin et al., “Machine Bias.”

[8] Meyer, Precision Journalism, 14.

[9] Lewis, “Journalism in an Era of Big Data”; Diakopoulos, “Accountability in Algo rithmic Decision Making”; Houston, Computer-Assisted Reporting; Houston and Investigative Reporters and Editors, Inc., The Investigative Reporter’s Handbook.

[10] Holovaty, “A Fundamental Way Newspaper Sites Need to Change.”

[11] Waite, “Announcing Politifact.”

[12] Holovaty, “In Memory of Chicagocrime.org.”

[13] Daniel and Flew, “The Guardian Reportage of the UK MP Expenses Scandal”; Flew et al., “The Promise of Computational Journalism.”

[14] Valentino-DeVries, Singer-Vine, and Soltani, “Websites Vary Prices, Deals Based on Users’ Information.”

[15] Diakopoulos, “Algorithmic Accountability.”

[16] Anderson, “Towards a Sociology of Computational and Algorithmic Journal ism”; Schudson, “Four Approaches to the Sociology of News.”

[17] Usher, Interactive Journalism.

[18] Royal, “The Journalist as Programmer.”

[19] Hamilton, Democracy’s Detectives.

[20] Arthur, “Analysing Data Is the Future for Journalists, Says Tim Berners-Lee.”

[21] Silver, The Signal and the Noise.


第3章 你好,人工智能第二部分 计算机不起作用之时