罗辑思维第76期:大国不能不识数

字数:11604

这两年中国的学术界和互联网应用界出现了一个大名人,他叫涂子沛,因为他写了这本书《大数据》。这本书在此前的《罗辑思维》节目里我们也曾经推荐过,这本书真的是好看,因为这里面有大量新鲜的故事和独特的角度。我是用两个整天,不间断地一气把它看完。就在我看完之后不久,我在一个论坛上就遇到了这位涂先生,而且我们俩很巧,就坐在左右隔壁,我当时像一个粉丝一样表达了各种倾慕之情,然后就打听,我说你接下来要写什么书啊,我们可等着拜读。涂先生说,那我接着写《大数据2》呗。我说那你这2是怎么个2法呢?他说我想把美国历史和数据这两个概念,结合起来写一本书。

当时时间很短,说实话,我听了这创作计划之后,我心里是不赞同的。为啥呢?两点:第一,替涂先生自己考虑,你好不容易在大数据这个高大上、非常时尚的概念上占据了意见领袖的位置,那你应该往前写啊?写什么大数据引导人类之类的话题,对吧,那些互联网公司才请你去搞演讲嘛,大学才请你去搞讲座嘛。你现在一转身形跑到历史堆里,翻故纸堆,这能有多大出息呢?这能够形成什么样的声势呢?这是第一。第二,大家想,大数据这个概念出现,不过是近几年的事情,如果你非要到美国历史当中,找一些跟这个概念相关的事实,也不是不可以。但是你也可以想到,多少会有一些穿凿附会嘛。就像我们研究现代恐怖主义,有人说我们中国早就有恐怖主义,我们有荆轲刺秦,春秋战国那会儿就有,这个说得也对,但是你不觉得穿凿附会而且对这个现象本身缺乏洞察力吗?

但是万没想到,两年之后涂子沛先生把这本书,就是《大数据2》叫《数据之巅》捧出来之后。我看完之后,觉得真的是非常震撼,这哪里是讲什么大数据?哪里是讲什么美国历史?虽然是这个笔法,但是他分明是从数据这个全新的角度,又替我们解释了一遍什么叫做现代文明,什么叫现代文明的生活方式,什么叫美国式的大国崛起。

所以这本书我们咬了咬牙,虽然很贵,我们还是决定在6月份给罗辑思维铁杆会员的赠书当中,我们给大家一人送一本《数据之巅》这本书。

好了,先不替这书做广告了,我们话归正题。数据为什么是现代化观察它的一个角度呢?我们先回到上个世纪的70年代初。话说1971年的时候,美国的福特汽车公司推出了一款新车型叫平托车,这个车又小,耗油量又低,卖得还特别便宜,只卖2000美金一辆。你一听就知道,这是为了对抗当时德国和日本车在美国市场上的攻势。所以这是福特汽车厂的一次绝地反击,是一款战略型的产品。投放市场之后反映不错,但是要知道,所有的新车型遇到的考验,可不光是什么客户满意度、价格这些事,更重要的一个数据是你的交通事故率。

平托车在这方面的表现应该说是不错的,因为从1971年到1977年发生的恶性交通事故是500起,500这个数字是啥意思?同时期推出来的同类型车,一共是五款,在交通事故率的表现上,平托车是第三名,就正好是中游,应该是交代得过去的一份答卷。但是平托车有一个问题,就是它的油箱设计有一点点和其他车不一样,其他的车都是放在后轮轴承的上面,而这款车放在了后面。你用常识一想就知道,容易出什么问题?它的隐患就在于一旦后车追尾,容易引发邮箱的爆裂,甚至是爆燃和爆炸。果然,1972年,也就是这款车投放市场的第二年,在美国的加尼福尼亚州的高速公路上,就出现了这么一桩事故。两个年轻人开车,谁也没招,谁也没惹,车就停了,被后车追尾追上了。果然就引发了大火,一个人当场死掉了,另外一个年轻人浑身大面积烧伤住院了。

这交通事故当中,有一个非常残忍的逻辑,就是对商家来说,你还不如死了呢,你死了之后,他赔一个固定的数就完了,你一旦出现了这样重伤,在医院住着的情况,那你就赔吧,什么医药费、后半生的生活费。这就引发了一桩诉讼,这个活下来的年轻人一纸诉状把福特汽车告上了法庭。大家都知道,在美国这种案子通常都旷日持久,从1972年就一直打官司打到了1977年。官司还没有落幕的时候,有一个记者叫道伊,突然发表了一篇文章叫《疯狂的平托》。这篇文章和这个还没有落幕的官司就一下子把福特汽车公司推到了当时的舆论的风口浪尖上,在美国汽车历史上留下了一桩著名的公案,就是平托车公案。

那这篇报道到底写了些啥呢?道伊发现,他通过大量地调查发现,福特汽车公司不是不知道它的设计有毛病,当时的工程师是发现了这个毛病,而且把这个问题已经提交到公司管理层了。更可怕的是,当时福特汽车公司是知道的,只要多花11美金,请注意这个数,区区11美金,就可以解决这个设计上的毛病。

那请问,你为了一款车省11美金的成本,你就把那么多条性命放在大火中燃烧,你资本家的心是黑的啊?你这个时候估计已经快喊起来了,肃静。真正的黑幕不仅于此,这个道伊接着写,就是你这11美金是怎么算出来的,道伊给福特汽车公司打了一张草稿,说他们是这么算的。福特汽车公司大概这个阶段生产了1000多万辆汽车,如果每一款车都多花这11美金的话,那你就是将近1.4亿美金的成本。可是如果我们不花这11美金,任由这个缺陷存在,任由引发的交通事故存在,我们顶多赔多少钱呢?算来算去,大概要死180个人,再伤他180个人,再撞毁大概5000辆左右的轿车,所有这些赔完了,公司一算才5000万美金左右,还不到。

那拿5000万美金和1.4亿美金,你拿大脚趾头想一想,你都知道怎么投票了吧?所以福特汽车公司的高层当时就这么做的决策,成本收益两相对比,我选不花这11美金。所以关键不在于他抠不抠,关键在于这背后的逻辑太可怕了。原来性命在你眼里就是这么一个单调的数字,原来你通过成本收益法这么一平衡,你就会心安理得的、非常理性的做出决策,把这些人送到火海里去,这才是道伊这篇文章的力量所在。大家注意这个时间,1977年,大家知道,新闻界把尼克松总统掀翻的水门事件是发生在1974年,区区三年后,这个时候媒体的力量是极大的,基本上一个黑幕曝出来,有点像中国前几年的3.15晚会似的,只要它一曝,你这公司就完蛋了。福特汽车公司虽然你那么庞大,那么在美国产业当中中流砥柱,你也架不住这样的黑幕曝出来。而且好死不死,在紧接着的1978年,印第安纳州又发生了一个事故,而且是一模一样的事故,被后车追尾,然后爆燃,死在车内的是三名花季少女。你想想看,三名花季少女这对舆论的那种煽风点火的作用有多大。

所以福特公司一下子就难以招架了。当然了,在法庭上,福特汽车公司那也是大公司,有的是钱可以雇律师,也提出了很多对道伊这篇文章的这种反击。比方说福特汽车公司说,说我没生产那么多汽车,你不能那么算,你算1200多万辆,我这款平托车从投放市场一直到现在也不过卖了几百万辆,你这些数是不对的。但是,我们应该说,不管福特汽车公司在法庭上如何抗辩,这个逻辑它躲不过去。包括后来曝光的一些文件,福田汽车公司这款平托车刚开始是没有通过叫20英里碰撞试验。就是当速度是20英里每小时的时候,你撞,撞烂了之后,应该发生什么样的事故,会不会发生邮箱的爆裂,刚开始是没通过的。后来福特汽车公司通过加固这个邮箱,把20英里每小时的碰撞试验算是混过去了。但是后来有材料发现,你只要再多花15美金零3毛钱,你就可以把这款车承受碰撞的标准从20英里每小时提高到34到38英里每小时。那请问你汽车厂,为什么不多花这笔钱?你不要再在法庭上计较那些细枝末节了,你这个残酷的逻辑你是绕不过去的呀。

在这篇报道当中,道伊把最后的矛头指向了一个数字,一个在计算成本收益计算法当中最最关键的数字。请问你一个人命多少钱,那个数是怎么得出来的?在福特汽车公司的算法当中,一条人命值多少?20万美金。但是你把20万美金一摊开,你会发现里面有些算法荒唐之极。比如说这20万美金的构成里面有一条,1万美金是支付一个人临死的时候,就是被烧死的时候承受的那个痛苦。1万美金,我烧你一回,我让你死一回,我付你1万美金,你干不干呀?如果你不干,你为什么这么算别人呢?人命至重,人命无价,在美国那种基督教文明的国家,在自杀都是被上帝不允许的,你怎么能用这么一个轻描淡写的数字,来给人命框定一个价格呢?道伊这个指责,站在我们今天看,那是掷地有声,那是公知范儿。当然,道伊还做了一些小创新,比如说他在这篇报道的结尾留了一块地,这叫请愿信,请所有看到这篇报道被感动、被愤怒的读者,你把这个请愿信剪下来,然后装到信封里给国会寄过去,要求福特汽车公司召回这款车。这有点像我们今天在微博上骂一个人呸,然后后面的人也呸,保持队形,集多少个呸,然后形成一个很有趣的文化现象。对,当时也是无数的民间的请愿信,雪片一样地向国会飞过去,那最后怎么样呢?最后还用说呢,福特汽车公司就把这个官司输掉了,赔这个还健在的年轻人250万美金,然后法庭还罚了它350万美金的惩罚性的罚款。

时隔这么多年年,我们也可以尝试心平气和地去理解一下,福特汽车公司当年的道理,它的道理无非就是两条:第一条,安全这个事它是没有尽头的。人类文明到现在为止也不可能保证生产出一辆车绝对不发生交通事故,对吧,那请问,你要花多少钱,来救多少人呢?举个例子来讲,公司发现,如果我花100万美金,可以改进某项安全措施,明年估计可以减少两例交通事故死亡,请问我投资不投资?如果投资,这就意味着人命50万一条嘛。那请问,如果一亿美金才能救两个人,还救不救呢?如果一万亿美金救两个人,请问还救不救呢?如果你的答案都是人命无价,就得救,整个汽车产业就崩溃掉了,因为没有办法做了。一辆车的成本就会高到无穷大,整个这个市场就会消失。如果我们坚持要搞市场经济,那对不起,就必须给人命定一个价,以便于企业主做理性的决策。马克斯·韦伯不是讲得好嘛,什么叫做资本主义?资本主义就是用计算的方法来决定所有的市场行为,这才叫资本主义。没有理性的决策,哪有合理的市场行为呢?这是第一个道理。

第二个道理,就是不管怎么讲,人命至重,人命无价。整个人类的资源是有限的,假设你是国家总统,现在我们都是为了保护人命,一年的预算就这么多,请问,我们是建一个水坝来防止洪水保护人命,还是多向癌症研究、多投点资金来保护人命?两个项目都在这儿,都救人,你选吧。那只有给人命标定一个价格,我们看,现在洪水潜在的危害会害死多少人,癌症会害死多少人,只有这样一比较,我们才能够决定这笔钱怎么投嘛。没有这个标准,连国家的大政方针的决策和财政资金的投向都没有了依据,这个社会不就乱了套吗?所以很多人,我们说有的公知,反复在那儿说人命至重,人命无价的时候,他就没有回到社会的运行场景,来重新理解这个问题。

我们这期节目的策划人,人民大学的冯启娜老师,她专门找了中国前两年的很多报纸上的新闻,就翻出来好多条这样的很荒唐的例子。比如说2003年《中国青年报》就有一个报道,一个小青年骑摩托车把人家一条狗撞死了,自己也飞出去了,自己也死了。最后这家要赔人命,那家要赔狗命,最后法庭审判,赔狗1.4万一条,赔人1.9万。最后把诉讼费一交,整个这一家,就是死人这一家苦主,拿到手的钱是几十块钱,那你说这不荒唐吗?可是这个荒唐是怎么造就的呢?就是因为狗是有价值的,一条狗命多少钱,到狗市上一打听就知道,名贵品种1.4万一条。人,人怎么算?中国司法没有一整套计算人命的合理的标准,而且这方面的东西,大家回避去谈,所以根据什么,比如一生的收入的折现法,那算出来你就值1.9万,所以回避对人命的计算,最后导致的恰恰是对人命的轻践。

说到这儿,我们才把今天这个节目的真正的难点,暴露给大家,就是按照通常的对社会、对生命、对生活的理解,我们是不同意把很多东西数据化的,就是大数据这个概念。但是社会运行又特别需要一个数据,作为我们共同对话的一个条件,那请问我们是要数据还是不要数据呢?罗胖子是倾向于人命要有一个计算价格的,但是你可能会提出一个质疑,这人命怎么算得清楚呢?

听了刚才那一段,估计你心里已经有数了。罗胖子是倾向于人命要有一个计算价格的。但是你可能会提出一个质疑,这人命怎么算得清楚呢?如果所有计算人命的方法都是错误的和没有人命计算方法导致社会的混乱,那在永恒的错误和永恒的混乱之间,你让我们怎么挑?对,必须承认,这确实是一个问题。美国人为这个问题也是很多年前就开始头疼,一直头疼到今天。现在美国,也是国际上的主流,计算人命的方法大概是这么几个计算法:第一叫未来收入折现法,就是你这个人不是死吗,那我算假设你活到一个平均数,你一生按你现在干的这个职业,你一共会有多少收入,然后折现到今天,就是你死这一天,你这条命的价格。然后如果为了照顾同命同价的问题,我们在全国再搞个平均数,这不就算出人命的价格吗?但是大家想一想,一个人一生当中,没准儿会换职业的,我今天搞脱口秀,明天我可能当总经理呢,我的价格就不一样了。而且一个人的生命价值,他也不是只体现在他自己挣多少钱,对吧。我们隔壁有一个女神,天天在走廊上梳头发,虽然她自己没靠梳头发挣钱,我走过去我看一眼,我心情舒畅,导致我今天的收入增加,这也是一个社会的正向效益吧,这个东西你说怎么算进来?所以这个方法看来是不妥。

美国人就想啊想啊,在五六十年代又出来一个经济学家叫谢林,谢林又发布了一个新的方法,这个方法后来他靠这一点,甚至得了诺贝尔经济学奖。他的方法叫价值意愿法,什么意思?就是一个人多少钱,那好,我们来算,来搞投票统计。说全美国人民愿意为挽救一条人命,愿意纳多少税,然后再平均下来,这不就可以测算出一个数值,来作为这个时代人命的价格吗?就看我们大家认为,一条命值多少钱,这个方法似乎也是奏效的,但是你仔细一推理,你发现也不成立。给大家举个例子,美国90年代的时候曾经做过一个调查,因为美国的那个标志就是白头鹰,白头鹰可是一个濒临灭绝的品种,说我们美国人民为了挽救这个白头鹰,我们意愿花多少钱。结果调查下来,每个美国家庭大概愿意花257美金,美国粗略地估算一下,大概是一亿个家庭,那就要花257亿美金去保护这个白头鹰。这个数字算出来之后,很多学者就摇头,说这个事可能不对,为啥呢?太乐观了,因为你这是调查,没让他掏真金白银的时候,他大嘴一说,我愿意花200多美金,你真要是征税,能征得上来吗?现在大家没有死人的时候,说你愿意花多少钱来保护一条人命,他说的那个数和真的要他把现银子往桌上一搁的时候,他愿意掏出来那个数,是一个数吗?所以这个方法似乎也不奏效。

当然,在美国历史上尤其近一百年来,关于怎么折算一个人命的价格,有各种各样的算法,各种各样的细则,但是结论都是一样,就是没有一个算法让所有人都满意。这就是数据方法来进行社会交换和价值评估遇到的一个永恒的问题。但是,我们今天把这个问题稍微反过来看一下,你也会发现,数据它不是一个简单的数,它是一个会生长的生物。数据本身是有进化能力的,只不过在很多条件的约束下,比如说技术手段,比如说价值观念,人类还没有演进的情况下,它这种进化有的时候会受挫。比如说刚才我们讲的人命的价格的计算,就是典型的受价值观影响而很难进化的一个数据。但是其他的数据,往往是在历史的进程当中,它会不断地修正自己,最后变得为所有人大体可以接受。

在这儿给大家举两个例子,都见于这本《数据之巅》的书。第一个例子是发生在美国南北战争前,大家知道那个时候的历史背景,南北双方,北方州和南方蓄奴州之间关于要不要保持奴隶制的问题,已经吵得一塌糊涂了。这个时候报纸上突然出现了一个数,请注意,这个数可不是南方的奴隶主搞什么阴谋诡计假造的数,这可是北方的联邦政府在做人口调查的时候得出来的数,什么数呢?就是在北方生活的黑人当中,每162个人当中就有一个是精神病患者或者是白痴,就是智力低下者。而这个数字一旦到南方立即就有好转,而且好转了十倍,在南方,每1600个黑人当中,才有一个精神病患或者是白痴。这个数字就这么板上钉钉的搁在这儿,那报纸的评论员看到这个数总得写文章吧,跟我们今天中国的很多公知一样,看到这么个事,总是要往体制上找原因。那你想想看,往下推论是个啥结论?这个结论就已经出来了,黑人一自由,马上就发疯,对吧。

南方奴隶主说,你看,黑人原来在我这儿当奴隶好得很,天天吃得饱穿得暖,虽然没自由,但是我们主人保护他呀,他们有非常安全的环境啊,所以他们的精神、健康状态一定是良好的。可是因为种种机缘,他们一旦获得了自由身,跑到你们北方,你们北方搞的是万恶的资本主义制度,黑人是住在贫民窟的,而且你们北方也是歧视黑人的好不好,黑人们当无产阶级,朝不保夕,天天吃不饱穿不暖,他的精神状况能不出问题吗?他一定就会疯嘛。所以这个结论板上钉钉,黑人一自由,马上就发疯。这北方人是吃了一个大瘪,但是没办法,数字就在这儿。

但是这个时候马塞诸塞州有一个精神病大夫叫贾维斯,他就不认这个邪,他说这个数肯定是错的。他这个错可不是猜想出来的,他是从他身边的观察得出来的,他生活的这个城镇,他说怎么可能按你人口普查表上有133个黑人精神病患者呢?我当精神病大夫的我还不清楚,来我这儿看病的都大部分是白人,没几个黑人,我这镇上哪有那么多黑人精神病患者。没有,一定是数出了问题。于是他就调查周边的市镇,发现也一样,这数字大得离谱,他就发了一个愿心,说我一定要把这个结论给它推翻,那怎么办呢?既然是人口普查得出来的结论,那就去找人口普查的表格。要知道,那个时候美国的人口普查已经是非常大的量级了,所以他真的是发扬了死磕精神,到全国各地去找这种表单,然后去加去算,算来算去,一声长叹,为什么?没算错。最后结论就是这样,162:1的黑人精神病患。

那会哪儿出了问题?只可能是在一个地方,就是人口普查的第一线数字就已经有了问题。但你总不能说是南方奴隶主派了一堆间谍到北方伪装成人口普查员,然后得出来这个数。因为人口普查员是一个分散的结构。查来查去,一直到1850年才真相大白,原来,北方的人口普查的表格印制的设计上出了问题,极其容易犯一个错误,把白人的精神病患者的数字填到黑人的项下。你想,本来北方的黑人数量就少,所以稍微有几个填错,就容易把这样的一个初始的错误,最终在统计学上给它放大,最后变成了这么一个荒腔走板的结论。这件事情到1850年才经由贾维斯医生之手,变得真相大白。

为什么要讲这个故事?是因为数据本身是有一种自生长的能力,这不是说数据本身是活的,而是只要一个事实,你不做定性判断而做定量判断,把它定格为一个数之后,它就要去经受所有人的挑剔、批评、甚至是推翻。那好,大家的对话就有了一个工具,有了一个介质,有了一个对象。你看贾维斯医生,就扮演这样的一个挑战者的姿态,他就看可以通过自己的努力,最后推翻这个不实之数,而让事实回到它的原状,这就是数据的作用。

再讲一个例子,美国从建国时候就立下了一个规矩,这是美国的第三任总统杰斐逊总统定下来的,说美国任何由国家主导的大型工程建设一定要去适用成本收益分析法,国家预算是有限的,所以一定是挑选那些成本收益分析之后最优化的项目,率先实施。作为一个原则,没问题吧?有问题,为啥?因为所有人都是有私心的。比方说,美国刚建国的时候,它主要的工程建设就是水利工程,水利工程谁来干啊?是由美国陆军的工程兵团来干。可是工程兵团也是人,一个人他总有一些三个跟你好,三个跟我好的人,对吧。比如说你们的州长跟我们这儿比较亲,我们这个兵团的司令是哪个州出来的人,那对这个州的项目,哪怕不是搁在明面上,在心底里总是有些小偏好的,有些小照顾的。这个照顾其实也很好办,怎么办?就是把收益算大,因为一个公共工程它的收益你是很难说得清楚的。

你比如说一个大坝建成,它总有防洪收益吧,它有灌溉收益吧,它总有军事收益吧,没准儿还有点观光旅游收益吧,那就看你怎么算了。所以算来算去,如果他有意偏向的话,把一个项目算大,这是有可能的。所以全国每个州报上来的每年上百甚至上千个项目,都在工程兵团一家来做决定,就难免有这个弊端。但是弊端来了怎么办?不怕啊,美国人有的是办法。他们紧接着就设立了第二个部门叫农垦局。你看,好像是重床叠架。但是这个设计当中是有深意的,因为农垦局是管美国的农田灌溉的,他们也管建坝,也管搞水利设施。这样在客观上跟美国陆军的工程兵团就有一个竞争。

那好了,一个项目你说谁建吧,或者先建哪个,那两家都拿报告,都拿所谓的成本收益核算出来,这个时候就会出现一个叫竞争的态势。那大家就各想各的招呗,对吧。工程兵团有一次算一个水库,他把什么都给算进去了,把海鸥都给算进去了。说你看,我建成这个水库,会来一万只海鸥,这一只海鸥我算它一年吃一千只蝗虫,可是一只蝗虫每年要吃掉一公斤的麦子,你算吧,一算出一个天文数字。你看,我建这个水库,原来替美国人省了这么多粮食不入害虫之口,这也算我的收益。这农垦局的小伙伴们一看,兄弟,有没有搞错,这个也能算进来的。但是没办法,人家就这么算,你不能说他没道理啊。

好,农垦局说,那这一招你会玩,我也会玩。那我叫什么?算次级收益。因为我主要管灌溉,你看啊,这么算。一个水利建成了,灌溉一片农田,因为这个地方灌溉条件好,很多农民就往这儿迁。你看,很多大卡车就帮着搬家,你看不就多了加油站吗?等人多了之后,这个地方就会出现电影院,电影院出现之后就会出现大商场,大商场出现之后就有很多人来观光,这个地方就会变得很繁荣。这叫次级收益,就是一层一层他都推导过去的收益,又算出一个天文数字。你看,这两家开始就斗。最典型的是罗斯福总统在任期间,有一个工程两家就抢,抢来抢去,最开始是陆军的工程兵团算出来的,说成本收益比是2.4,所以这个项目该建,而且应该由我来建。农垦局的报告紧接着递上,说同意,这个项目确实收益远大于成本,但是我农垦局算出来的不是2.4是4.8,我们整整比他多一倍,但是如果我来建,我是主要发挥这个大坝的灌溉功能,所以我的方案应该最优。

这个吵到国会那儿,国会一头脑的糨子,说这个没办法了,让罗斯福去定吧。罗斯福一看,那还有什么可说的,你们俩这都是最终的成本收益的决算,那我就按数大的定。我罗斯福又不是水利专家,我搞不清你们这些事,我就按谁算出来的数最大,我就给谁干。这农垦局把这个项目给拿走了。可是你别以为只有两个部门在争国家的预算,很快又杀进来,在上个世纪40年代,铁老大又杀进来了,为什么?因为你们天天开凿运河什么的,这耽误我铁路生意,所以铁路公司也不干。在40年代就有这么一个案子,在阿肯色州要开凿一条运河,当时农垦局和陆军工程兵团都报了方案,最后铁老大就在旁边冷冷地哼了一声,说,呦,这么多预算呢,这么多预算开一条运河啊,这么着吧,你给我,我能修两条铁路,我永远免费给国家运输物资,你们别修运河了。弄得前两个单位又特别的臊眉耷眼。

所以你看,只有当数据摆出来之后,它能引发一种态势叫竞争,各个部门围绕数据进行计算。所以在上个世纪的40年代之后,美国国家各个部门都兴起一股叫数据浪潮,干什么?其实是人潮,什么人?经济学家和统计学家。因为如果你不养活几个统计学家和经济学家,你算账算不过人家其他部门,在国家预算的竞争中,你就会落败。

我不知道说到这儿你想起什么没有?对,法庭。你看在法庭上就是这样,法官往这儿一坐,对于原被告双方的是非曲直,他是不清楚的,那怎么办?法官就像傻子一样往这儿一坐,行,你原告先说他怎么你了,你被告辩驳。就是拿一个一个的证据,然后原被告双方抗辩,法官只要有常识即可,他不需要对每一个领域都是专家。因为在竞争当中,在抗辩当中,不是法官来找你这个证据的缺失,而是你们双方盯着对方的逻辑漏洞和事实漏洞。对啊,这就是数据摊开到桌面上的一个好处,数据的成长,数据的进化,并不是靠数据本身,而是在数据两边利益完全对立的双方,都盯着对方的数据的逻辑漏洞和事实漏洞去找毛病,所以数据就会变得越来越精准。

在美国的水利工程建设这方面,最后也演化到这样的情况,说大家最后都打累了,说算了,别扯了,扯这个咱们双方永远都说不清。这样,几家我们坐下来,最后形成了一个文件叫绿皮书,这在美国政府直到今天还是非常重要的一份文件。就是甭管是工程兵还是农垦局,还是铁老大,我们以后再搞任何工程的收益计算,我们就按照一个规矩来算,比如说旅游观光收益怎么算,病虫害的收益怎么算,都有一整套标准。当然客观上讲,这套标准只要写出来,白纸黑字一旦摆在桌面上,总是有毛病的。所以这本绿皮书在1950年代定下来之后,此后经过了几次大的改版,但是没有办法,没有这个东西,大家就没有办法形成良性竞争。所以不管哪朝哪代,哪个版本的绿皮书,有多少毛病,它都是几方利益最终达成的一个平衡点。所以你再去回头看杰斐逊当年确立下来的这样一个成本收益的原则,他就通过数据的方法,最终落了地。所以数据不是一个死东西,也许刚开始的起点是不靠谱的,但是只要引进竞争,只要对人性有充分的估计,最后数据会达到一个大家都能认可的平衡点。

今天我们讲了数据很多很多的好话,但是有一个小问题没有解决,就是当数据和人伦道德之间产生冲突的时候,我们应该怎么选?前面举的那个例子,一条人命放在这儿,你可不可以用数据给他标定一个价格?不管你怎么选,你都会发现自己陷入一种道德上的两难。在美国历史上就曾经遇到过一个类似的困境,我们罗辑思维节目此前做过一期,关于美国立宪会议的节目,就讲的是这个问题。那次主要介绍的是大妥协,就是大州和小州之前利益的平衡。其实在大妥协后面,还跟了一个叫五分之三妥协,啥意思?就是北方人跟南方的奴隶主说,你们不是不给黑人政治权利吗?可以啊,那你们南方在选众议院议员的时候,黑人人口就不能计算在内。说白了,就是打压南方州在众议院的代表人数。南方的奴隶主说行啊,这没有问题,很公平,那我们给联邦纳税的时候,黑人人口也不应该计算在内。北方说那哪儿行啊,你这不是占我们便宜吗?你们南方主要劳动力是黑人,创造财富主要靠他们,这些人不算在内,那纳税的时候你们纳的就很少了。南方人说,那你们看了,要么给议席,要么你们不要税收,你看着办。

那说到这儿的时候,南北双方就不能只在原则上进行争议。双方最后说,那就说个数吧,把一个黑人人口折算成多少个北方的白人人口,不就完了吗?谈来谈去,吵来吵去,最后就得出了这个数,五分之三,一个黑人算五分之三个白人。听到这儿,你心底里已经发出正义的怒吼了,这不是赤裸裸的歧视吗?都是上帝的子民,凭什么一个黑人算60%的人呢?对,这确实不公平,也不合理。当时的与会代表汉密尔顿就讲过一句话,五分之三这个数当然有瑕疵,当然不完美,但是又怎么办呢?有总比没有要好吧,有了这个数,南北双方的人可以团结起来共同建设这个国家,一起往前走;如果没有这个数,难道我们所有的与会代表要在这个大厅里争论到老吗?

所以这在当时是一个不得已但是很理性的选择,这是当时人的看法了。隔了两百多年我们再去看五分之三这个数,其实你还会发现它的另外一个功能,就是它像一根刺一样扎在当时每个美国人的良心当中,你不是信奉上帝的国家吗?那上帝的子民都应该是平等的,怎么有一帮人只能够按60%的人算呢?这跟你建国主张的什么自由、平等的基本原则,不是相抵触的吗?这根刺一旦在良心里扎进去,它就会形成一种势能,让每个美国人都不得不正视这个伦理难题,从而要去解决它。它会随着历史进程的推演变得越来越膨胀,最后形成排山倒海的民意。果然,过了半个多世纪,这个问题通过南北战争就解决掉了,美国人终于在良心上可以松一口气了。

从这个例子其实就可以看出来,数据和伦理道德之间并不是一个非此即彼的两难选择。现实可能是丑恶的,它会反映到数据当中,但这并不是说数据本身有丑恶和高尚之分。数据就是一个客观存在,它只是把原来那些被掩盖、被模糊的伦理难题翻到桌面上而已,成为那一根所有人看得见的眼中钉,肉中刺。它本身的存在就已经形成了解决这个伦理难题的前提。就像我们中国古人,在讲怎么修身养性,怎么制怒,其实就有一招,就是你不要每时每刻让自己别发火。这你也做不到,那怎么办呢?你每发一次火,你就在墙上划一道杠杠,过了几个月你再来看,这个杠杠是不是越划越少。那这其实就是一个数字,对我们起到的一个心理暗示作用,我们就在制怒,就在调整自己的情绪,有助于问题的解决。你看,数字在伦理难题上,其实也能发挥如此大的作用。

说到这儿,我们就应该把这期节目的底牌亮出来给大家看一看了。表面上我们说的是数据,而实际上我们想介绍的是一个结论,那就是现代文明是建立在数据文明基础上的一种生活方式,你可能会不同意,说数据文明那玩意儿多枯燥,多没意思啊,多没灵性啊,外在的大千世界那么变化万端,那么丰富,用几个数字,它能描述出来吗?我们人类追求把握世界、理解世界,要追求个效率,我们用灵性,用直觉,用定性的方式,可以直接把握它。你看我们中国人的老祖宗就是这么干的,我们理解世界的变化,讲的是这套嗑儿。“太极生两仪,两仪生四相,四相生八卦”,你看,虽然也有数,可是这个数可不是数据文明那个数,是我们用审美的方式,直接用灵性把握这个世界的结论。而且这套结论永远颠扑不破,到哪朝哪代你都不能说这个结论是错的。

所以,中华文明和数据文明之间确实隔着一道观念的鸿沟。2012年,中国有一个类似于笑话似的新闻,有一个发改委的专家发布了一个数,说中华民族的复兴指数已经达到了62.74%,好多人哄笑大笑。你看,数据文明和我们的中华文明面对同样一个数字,态度就不一样。如果是数据文明中的人,比如说美国人,他就可能会跟你争论,说你这个模型有问题,你这个算法有问题,你这个参数有问题,你这个数据的来源有问题,他跟你折腾这个。

可是我们中国人呢?往往看见就是一通嘲笑就完事,把你踹翻完了,说民族复兴怎么可能用数据来表达呢,所以微博上很多人嘲笑,说我这个胃疼现在好了62.74%,就在嘲笑他。但是数据文明纵有千般不好,今天也请容罗胖为它讲出三点好处。

第一个好处,是让人和人之间可以对话,而且可以得出阶段性的结论。比方说刚刚过去的端午节,我们不是数据文明的人就会为甜粽子、咸粽子吵来吵去。这种吵,对不起,吵千秋万代也不会有结论,好不好。如果站在数据文明里,那就清楚了,那我们为什么吵,是说这两种粽子哪种更健康吗?那我们先确立标准,是不是摄入的卡路里越多,就越不健康?那就量呗,量出数,最后一番两瞪眼,结论就做出来了,这是第一个好处。

第二个好处,数据文明可以让人和人,尤其是陌生人之间的远程大规模协作变得可能。我们在此前的节目里面多次讲过,陌生人之间的分工协作是现代财富创生的根本基石。没错,比方说西餐,它就容易通过数字标准化,然后形成跨空间的协作。比如麦当劳,一个城市有一中心厨房,它生产一部分,然后通过数据来指导下一个阶段的生产。一个薯条炸几分钟,油温是多少,用数据可以控制它的口味。可是你换到我们中餐,那就完蛋了。因为它所有的烹饪系统是一个黑箱,这个黑箱只有经验丰富的大师傅可以掌握,油温是多少,火候是多少,酱油是少许等等,它一切不数据化。就导致一个大师傅的手艺和他做菜的口味没有办法横向协作,师傅跟徒弟也传不下去,横向之间的协作你就更别想,这是第二条好处。

第三条好处,就是数据是一种可以累进的文明。我们拿中医打比方,很多人都知道我是反对中医的,今天不谈这个话题。我们就看中医的一个缺陷,我们现在谈中医的最高水平是什么?很多人说来说去,不还是几千年前的那本《黄帝内经》吗?哪个当代的中医敢说,我现在拿出的这本医书,我现在讲的这套中医理论,比《黄帝内经》牛。谁敢说?没人敢说。这就说明什么?这套理论纵有千般好处,它是一种不能进展的文明方式。可是现代医学,我们统称的西医,它纵然有千般不好,它有一个好处,就是后人的成就一定是站在前人的基础之上的,后人的发现一定是站在前人的阶梯之上的。它的数据的一点点的演进,让人类对自己身体的认知的边界,是虽然艰难,但是毕竟在推进的一个知识系统。

所以说到这儿,什么是现代化?为什么说数据文明奠定了现代化的基础?就是因为上面我讲的三个特征,有了数据,人和人可以对话,人和人可以协作,知识和知识可以产生累进的作用,而现代化不就是这样爆发开来的吗?

这期节目的最后,让我们引用涂子沛先生的一句话吧。他说,“数据不像有的人说的那样,是什么资源。数据它就是土壤,而数据的开放和透明,是在这片土壤上流淌的河流,这片土壤到了哪里,这支河流流淌到哪里,哪里就会盛开文明之花”


75:胡适的百年孤独77:爱,为什么会变伤害?