从大数据中找规律

字数:3550

当人们改变思维方式后,很多过去难以解决的问题在大数据时代可以迎刃而解。

在美国,毒品问题是一大社会毒瘤。按照一般人的想法,切断毒源就可以从根子上解决这个问题,因此过去美国把缉毒的重点放在切断来自南美洲的毒品供应上。尽管美国在这方面做得不错,但是仍然无法禁止毒品的泛滥,其中一个重要的原因就是很多提炼毒品所需的植物,比如大麻,种起来非常容易,甚至可以在自己家里种。

在马里兰州的巴尔的摩市东部,有一些废弃的房屋(见图4.1),当地一些穷人就进去把四周的门窗钉死,然后在里面偷偷用LED(发光二极管)灯种植大麻,由于周围的社区比较乱,很少有外人去那里,因此那儿就成了毒品种植者的天堂。

图4.1 巴尔的摩东部贫民窟有大量废弃的住房,毒品生产者在里面偷偷种植和提炼毒品

对图4.1中这一类街区进行重点排查是否就能解决问题呢?答案并不是那么简单。在环境优美生活水准高的西雅图地区,比如在图4.2那样的社区里,把门窗钉起来种毒品自然是行不通的,但是毒品种植者也有办法。有一家人花了50万美元买下了一栋豪宅,周围是种满了玫瑰的花园,平时很少有人来。这栋四卧两厅的大宅子其实没有人住,占据它的是里面658株盆栽的大麻。房主每年卖大麻的收入,不仅足够付房子的分期付款和电费,而且还让他擴够了首付又买了一栋房子。64

图4.2 种植大麻的豪宅外景

图4.3 豪宅内实际上是这样的大麻种植场

类似的情况在美国各州和加拿大不少地区都有发生。据估计,仅加拿大的不列颠哥伦比亚省,每年这种盆栽大麻的收入就高达65亿美元,在当地是仅次于石油的第二大生意。

由于种植毒品的人分布的地域非常广,而且做事隐秘,定位这样种植毒品的房屋的成本非常高。再加上美国宪法的第四修正案规定“人人具有保障人身、住所、文件及财物的安全,不受无理之搜查和扣押的权利”,警察在没有证据时不得随便进入这些房屋进行搜查。因此,过去警察虽然知道一些嫌犯可能在种植毒品,也只能望洋兴叹,这使得美国的毒品屡禁不止。

但是到了大数据时代,私自种植毒品者的好日子就快到头了。2010年,美国各大媒体报道了这样一则新闻:

在南卡罗来纳州的多切斯特县(Dorchester County),警察通过智能电表收集上来的各户用电情况分析,抓住了一个在家里种大麻的人。

这件事引起了美国社会的广泛讨论,当然话题除了围绕当地的供电公司爱迪斯托(Edisto Electric)是否有权利将用户的数据提供给警察之外,更多的是在探讨大数据能够帮助我们解决过去的难题,以及这项技术对社会产生的影响。不过,不论社会怎么看,我觉得倒是该给警察们一些赞誉,他们能够在新的技术环境下改变思维方式,把过去难以解决的问题解决好。

无独有偶,这则消息出来以后不久,媒体陆续报道出在美国其他州,警察也用类似的方法抓到在房间里种大麻的人,65截至2011年,仅俄亥俄一个州,警察就抓到了60个这样的犯罪嫌疑人。为什么最近这些年警察抓嫌疑犯的效率一下子变得如此之高呢?因为以前供电公司使用的是老式的电表,只能记录每家每月的用电量,而从十几年前开始,美国逐渐采用智能电表取代传统的电表,这样不仅能够记录用电量,还能记录用电模式。种植大麻的房子用电模式和一般居家是不同的,只要把每家每户的用电模式和典型的居家用电模式进行比对,就能圈定一些犯罪嫌疑人。

对于查处毒品种植的案例,我们看到了大数据思维的三个亮点:第一是用统计规律和个案对比,做到精准定位。第二是社会其实已经默认了在取证时利用相关性代替直接证据,即我们在前面所说的强相关性代替因果关系。第三是执法的成本,或者更广泛地讲,运营的成本,在大数据时代会大幅下降。

类似的使用大数据的不仅有警察局,还有税务局。

在美国99.7%的企业是500人以下的小企业,它们雇用的员工占了私有企业员工的一半左右,而每个小企业平均人数只有5人左右。66这些小企业,尤其是涉及可以进行现金交易的零售企业(比如餐馆、商店、服务行业等),时常有偷漏税现象发生。据估计,美国每年仅偷漏的联邦税就高达3000多亿美元67,在最多的年份2006年是近4000亿美元。如果没有偷漏税,美国是可以避免财政赤字的。而在美国偷漏税比例最高的是小企业,因为查这些企业偷漏税的成本太高。

不过从2006年开始,美国偷漏税的金额开始下降了,这主要是因为国税局和各州州税局采用了大数据的技术,比较准确地圈定了可能偷漏税的小企业以及个人骗退税的情况。68后一种情况需要一些美国个人所得税的背景知识,我们略过不讲,重点看看前一种情况,即小企业偷漏税的情况。联邦和州两级税务局防止小企业偷漏税的做法其实很简单。首先,税务局将企业按照规模(场地大小)、类型和地址做一个简单的分类,比如旧金山拿骚大街上的餐馆分为一类,圣荷西第十大街上的某个理发店分为另一类等。然后,税务局根据历史的数据对每一类大致的收入和纳税情况进行分析。比如前一类餐馆每平方米的营业面积每年产生1万美元左右的营业额,整个餐馆的年收入大约是200万~280万美元左右,纳税20万美元;后一类年收入是8万〜12万美元左右,纳税5000美元。如果前一类中有一家餐馆的营业面积和其他各家差不多,自称收入只有50万美元,那么就会被调查;后一类如果有一家理发店每年有10万美元的收入,只纳税1000美元,也会被调查。

在有大数据之前,我们寻找一个规律常常是很困难的,经常要经历“假设——求证——再假设——再求证”这样一个漫长的过程,而在找到规律后,应用到个案上的成本可能也是很高的。但是,有了大数据之后,这一类问题就变得简单了。比如通过对大量数据的统计直接找到正常用电模式和纳税模式,然后圈定那些用电模式异常的大麻种植者,或者有嫌疑的偷漏税者。由于这种方法采用的是机器学习,依靠的是机器智能,大大降低了人工成本,因此执行的成本非常低。在美国有大量类似的报道69,在各种媒体上都可以看到。

图4.4税务部门利用大数据查处偷税漏税

既然行政监管机构通过大数据分析可以得到它们想要得到的信息,那么商家也可以通过类似的方法做更多的生意。《纽约时报》的记者查尔斯·杜西格在2012年详细地报道了美国第二大连锁百货店塔吉特70用大数据做生意的事情。

2002年,塔吉特连锁百货店聘请统计学硕士安德鲁·波尔(Andrew Pole)来分析数据。在此之前,塔吉特通过信用卡号、接收发票的邮箱71能把某些顾客与其所购买的商品联系起来(回顾大数据的多维度特征)。但是这些数据有什么用、怎么用,塔吉特并没有考虑。波尔来了以后,就用这些数据分析用户行为。有一天市场部的同事来找他,问他能否判断一位女性顾客是否怀孕了,因为如果一个家庭有了孩子,他们的购物习惯将改变,甚至会疯狂购物,这时,百货店就可以给这些顾客推送相应商品的优惠券,牢牢把握住这些有刚需的用户。

波尔的数据分析团队经过对怀孕顾客行为的分析发现,这些女性在怀孕的不同阶段购买的东西有很大的相似性。在最初阶段,她们会购买无味的大瓶润肤油,这是因为她们会出现皮肤干燥的症状,接下来就是购买维生素和一些营养品,然后就是购买大包无味的香皂和棉球。等到购买婴儿用的毛巾等用品时,一般就到了快分娩的时间了。虽然每位孕妇购买的东西不完全相同,塔吉特所拥有的数据也并非完整,但是这个大趋势还是能够被系统自动归纳出来的。波尔说,如果一位女性买过大瓶椰子油润肤露、一个能装两大包尿不湿的大挎包、维生素和鲜亮的孩子玩耍的地毯,那么根据这看似不多的信息,就能估计出她怀孕的可能性是87%,而且如果确实怀孕了,那么预产期可以预测得非常准确。

依靠大量的数据,波尔团队给出的预测还是相当准确的。塔吉特根据波尔统计出的结论,找出25类商品,一旦确定一个家庭有人怀孕了,就在孕妇怀孕的不同时期向她们推送这25类商品的优惠券。利用大数据精确地做生意的做法,让塔吉特能够在美国零售市场趋于饱和且被电商瓜分的情况下,保持稳定的增长。2002年,也就是波尔受聘于塔吉特的那一年,该连锁店的营业额是440亿美元。到了2010年,营业额则上升到670亿美元。至于波尔的工作对此有多少贡献,塔吉特的老板认为是非常大的,因为塔吉特从那以后专注于给像母婴这样的特定顾客有针对性地推荐产品。

塔吉特利用大数据的故事非常具有代表性,它反映出大数据和未来商业的关系。但是塔吉特的故事并没有到此结束,接下来的事情就非常戏剧化了。接下来的这一段内容被《福布斯》等多家媒体不断报道和转载,因此读者可能已经读到过了,在这里我就不赘述细节了,只是为了便于讨论,介绍一下故事的梗概72:

有一天,一位中年男子闯进明尼阿波利斯的一家塔吉特商店,要求找他们的经理。在见到经理后,这位男子说:“我那个才上高中的女儿收到了这些优惠券——婴儿的衣服、婴儿的摇车等,你们这是鼓励她过早怀孕么?”经理开始时一头雾水,看了男子手里拿的信件的地址和里面的优惠券,确实是他们寄出去的。于是经理就向这位男子道歉。

几天后,这位经理又专门打电话给这位男子,再次道歉,并且了解一下后者对他们的处理是否满意。这回让这位经理吃惊的是,在电话的另一端,那位男子说:“我和女儿谈了,家里有些事情我确实不知道,她真的怀孕了,预产期是8月。我应该向你道歉。”

记者杜西格在他的长文中这样评论道:“塔吉特比一个十几岁女孩的父亲先知道他的孩子怀孕了。事实上它很清楚顾客家庭的情况,却装作不知道。这件事就如同跑去相亲的男女,虽然事先已经把对方了解得一清二楚,还装作什么都不知道。”当然,塔吉特挖掘大数据并非为了刺探隐私,而是为了做生意,但是这也从另一方面说明商家掌握了大数据之后,对顾客的需求可以说是了如指掌。

相比电子商务公司,塔吉特的IT技术力量并不强,而且作为传统的连锁店,它所收集到的与用户行为相关的数据并不算多,即便如此,在使用大数据之后,它比客户的家庭更了解自家的情况。那些手握更多数据的电子商务公司,诸如亚马逊和阿里巴巴,就更可能比我们更了解我们自己的需求了。


第四章 大数据与商业巨大的商业利好:相关性、时效性和个性化的重要性