统计学:点石成金的魔棒

字数:1940

最初研究概率论的并非数学家,而是一群赌徒和投机者。直到今天,很多研究纯数学的数学家都不把概率论当作数学,而将它看成是一门独立的学科。统计学,有时又被称为数理统计,是建立在概率论基础之上,收集、处理和分析数据,找到数据内在的关联性和规律性的学科。在这里,我们就不详细介绍概率论和统计学了,关于它们在信息技术中的应用,可以参见拙著《数学之美》。不过我们这里要强调统计学中数据采集上的两个要点——量和质。

先讲讲数据量的问题。要想取得准确的统计结果,统计首先要求数据量充足。比如我们想了解电影院的观众年龄分布,以便做市场推广,假定我们把观众群分为15岁及以下、16〜25岁、26~40岁和41岁及以上4个人群。要了解每个人群的比例,一个简单的办法就是到电影院门口去问一问那些看电影的人的年龄。比如我们通过调查了解到大约有343人在15岁及以下,459人在16~25岁,386人在26~40岁,而490人在41岁及以上,我们大致可以得出这样的结论:

15岁及以下的观众占20%左右,16~25岁的观众超过四分之一,但不到三成,26~40岁的观众略少于四分之一,41岁及以上的观众最多,大约占到了三成。

但是,如果我们只在周末的晚上抽样调查了10个人,发现有3个15岁及以下的观众,5个16~25岁的观众,2个26~40岁的观众,我们显然不能说25岁及以下的观众占了八成,而41岁及以上的中年人从来不来电影院这样的结论。我想大部分读者都会同意这样一个观点,在统计样本数量不充分的情况下,统计数字毫无意义。至于需要多少数据统计结果(在我们这个问题里是概率的估计)才是准确的,这就需要进行定量分析了。

越想要得到准确的统计结果,需要的统计数据量就越大。在上面的例子中,统计的样本总数是1678人,要得出大致结论是足够了,但是如果我们一定要说“41岁及以上的观众就是29.2%”,或者“15岁及以下的观众一定超过20%”那样非常确定的话,大家就可能会挑战这个结论了,因为统计是有随机性的,也是有误差的,仅仅上千人的数据得不到这样准确的结论。

统计除了要求数据量必须充分以外,还要求采样的数据具有代表性。有些时候不是数据量足够大,统计结果就一定准确。统计所使用的数据必须和我们想统计的目标相一致。为了说明这一点,让我们来看一个大量统计却没有得到准确估计的案例。

图1.13 这场电影显然中老年观众偏多,如果统计量不够,得到的结论未必反映真实情况

在1936年的美国总统大选前夕,当时著名的民意调查机构《文学文摘》(The Literary Digest)预测共和党候选人兰登会赢。此前,《文学文摘》已经连续4次成功地预测了总统大选的结果,这一次它收回来240万份问卷,比前几次多得多,统计量应该是足够了,因此民众们相信其预测。不过,当时一位名不见经传的新闻学教授(也是统计学家)乔治·盖洛普(George Gallup,1901~1984)却对大选结果提出了相反的看法,他通过对5万人意见的统计,得出了民主党候选人罗斯福会连任的结论。后来的大选结果证实是采用少量样本的盖洛普对了。面对迷惑的民众,盖洛普解释了其中的原因:《文学文摘》统计的样本数虽然多,但是不具有代表性,它的调查员们是根据电话本上的地址发送问卷的,而当年美国只有一半的家庭安装了电话,这些家庭的收入相对偏高——他们大多支持共和党。而盖洛普在设计统计样本时,考虑到了美国选民种族、性别、年龄和收入等各种因素,因此虽然只有5万个样本,却更有代表性。这个例子说明统计样本代表性的重要性。

图1.14 1936年盖洛普正确地进行了总统大选结果的预测

在盖洛普之后,各种民意调查和统计公司都试图设计出具有代表性的样本,以便用相对少的数据精确地统计出所想知道的结论,然而是否做好了,没有人知道。有时人们甚至根据结论倒推当初的样本设计,结论准确了,就说当初的样本假设是没有问题的,否则就说样本没有设计好。这其实是马后炮,但是在大数据出现之前,这个问题难以解决。

我们不妨依然用盖洛普的例子来说明样本设计之难。在1936年成功地预测了大选结果之后,盖洛普不仅个人一夜成名,而且还催生出一个直到今天仍具权威性的民调公司——盖洛普公司。在这之后,该公司又成功地预测了1940年和1944年两次大选。在1948年年底美国大选前夕,盖洛普公布了一个自认为颇为准确的结论一一共和党候选人杜威将在大选中以比较大的优势击败当时的总统、民主党候选人杜鲁门。由于盖洛普公司前三次的成功,在大选前很多人,包括蒋介石,都相信这个结论。但是,大选的结果大家都清楚,杜鲁门以比较大的优势获胜。这不仅让很多人大跌眼镜,而且让大家对盖洛普公司的民调方法产生了质疑——虽然盖洛普公司考虑了选民的收入、性别、种族和年龄的因素,但是还有非常多的其他因素,以及这些因素的组合他们没有考虑。

迷信了1948年盖洛普预测的第一大输家无疑是远在大洋彼岸的蒋介石先生。他本来就和杜鲁门关系不是很好,在得知杜威将战胜杜鲁门这个预测后,非常兴奋,公开支持杜威,并且期待着在杜鲁门下台后能从美国得到更多的援助。草根出身的杜鲁门本来就非常不喜欢蒋介石的独裁和腐败,对这次蒋介石公开支持他的竞争对手的行为更是大为不满,因此他在连任总统后,对蒋更加不待见了。当然这是题外话,不过这至少说明,使用不具有代表性的数据得到的结论可能要“坑死人”。

在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事,在误差允许的范围内做一些统计当然没有问题,但是只有在很少的情况下能够单纯依靠数据来解决复杂的问题。因此在20世纪90年代之前,整个社会对数据并不是很看重。


相关性:使用数据的钥匙数学模型:数据驱动方法的基础