数据公司Google

字数:2326

在一般人眼里,Google是一家高科技公司,不断地研发新的技术,并且成功地将一部分技术转化成了产品。但是,它从根本上讲其实是一家数据公司。著名的机器智能专家,前Google研究院院长诺威格博士对Google的这个本质有深刻的认识。他在接受母校(加州大学伯克利分校)授予他的荣誉证书时,曾经这样讲述他为什么要加入Google:

2001年,当全球互联网泡沫破碎后,大家都在逃离这个领域,很多人从互联网行业回到了学术界。人们问我为什么在这样一个时候离开NASA(美国国家航空航天局),加入Google这家不大的互联网公司。我和他们讲了大萧条时期(1929~1933年)的一个故事。在大萧条时,有些人买了银行的股票,后来都发了财。事后人们问那些买了银行股票的人为什么在银行如此糟糕时敢买它们的股票,那些投资人讲,“因为全世界的钱都在它们那里。”所以,加入Google的决定并不难做,因为全世界的数据都在Google那里。

诺威格在Google负责搜索质量部门(也是我所在的部门)。在2005年之前,虽然我们不断地使用数据来提高搜索质量,但是主要的工作方法还是遵循因果关系。比如我们发现有些搜索结果相关性不好,那么我们需要先分析原因,再寻找答案。在那个时候,网页搜索质量可以提升的空间还比较大,靠这种方法我们每年可以将搜索质量提高3〜5个百分点。不过随着搜索质量接近完美,再按照这样一种方式工作,每年的进步连一个百分点都到不了。但与此同时,依靠数据的积累,大家发现搜索质量和很多数据特征有很强的相关性,利用这些特性可以迅速提升搜索结果的质量。

在所有的数据中,与搜索质量相关性最高的是大量的点击数据,即对于不同的搜索关键词,用户们都点击了哪些搜索结果(网页)。比如对于“虚拟现实”这个查询,用户有31000次点击了网页A,15000次点击了网页B,11000次点击了网页C……在这种情况下,网页A应该被排在第一位,但是如果搜索排序算法不好,有可能出现它没有被排在第一位的情况。这时搜索引擎的设计者就面临一个选择,是采用通过研究改进原有的排序算法,还是干脆相信用户的点击结果,或者是将它们结合在一起。如果单纯改进排序算法,这个周期特别长。如果相信用户点击的结果,其实就是用相关性取代因果关系,当然这里面有两个风险:首先是用户点击容易形成马太效应,排在前面的结果即使不是很相关,也容易获得更多的点击;其次是单纯依靠点击,搜索结果的排名容易被一些使用者操纵。因此,比较稳妥的办法是对用户的点击数据建立一个简单的模型,作为搜索排序算法的一部分。

今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为“点击模型”。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占70%~80%的权重59,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了。

当然,点击模型的准确性取决于数据量的大小。对于常见的搜索,比如“虚拟现实”,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如“毕加索早期作品介绍”,需要很长的时间才能收集到“足够多的数据”来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。微软的搜索引擎在很长的时间里做不过Google的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎相对百度最大的劣势也在于数据量上。

当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。这时,各公司的商业策略和产品策略就都围绕着获取数据、建立相关性而开展了。后进入搜索市场的公司要想不坐以待毙,唯一的办法就是快速获得数据。比如微软通过接手雅虎的搜索业务,将必应的搜索量从原来Google的10%左右陡然提升到Google的20%〜30%,点击模型估计得准确了许多,搜索质量迅速提高。但是即使做到这一点还是不够的,因此一些公司想出了更激进的办法,通过搜索条(Toolbar)、浏览器甚至输入法来收集用户的点击行为。这种办法的好处在于它不仅可以收集到用户使用该公司搜索引擎本身的点击数据,而且还能收集用户使用其他搜索引擎的数据,比如微软通过旧浏览器收集用户使用Google搜索时的点击情况。这样一来,如果一家公司能够在浏览器市场占很大的份额,即使它的搜索量很小,也能收集大量的数据。有了这些数据,尤其是用户在更好的搜索引擎上的点击数据,一家搜索引擎公司可以快速改进长尾搜索的质量。当然,有人诟病必应的这种做法是“抄”Google的搜索结果,其实它并没有直接抄,而是用Google的数据改进自己的点击模型。这种事情在中国市场上也是一样,因此,搜索质量的竞争就成了浏览器或者其他客户端软件市场占有率的竞争。虽然在外人看来这些互联网公司竞争的是技术,但更准确地讲,它们是在数据层面竞争。

在Google内,点击模型的使用标志着工作方法从传统的“遵循因果关系”,逐步变成了“寻找相关性”。今天,Google至少有1/3~2/5的工程师每天的工作就是处理数据。Google的关键词广告系统AdWords不仅是互联网世界最赚钱的产品,对广告商来讲也是广告效果最好的平台。Google是如何做到兼顾自己的利益和广告商的利益的呢?Google的销售人员对外宣传是技术好,这种说法当然没有错,但是更准确的说法是它从一开始就积累了大量的各种数据,并且善于利用数据。Google在搜索结果页投放广告时,不仅要考虑广告主的出价,还要考虑它与搜索的结果是否相关,该广告本身的质量,以及在历史上用户点击这个广告的比例。这样一来,那些不太可能产生点击的广告,或者质量不高的广告,Google就展示得很少。对广告主来讲省了钱,对Google来讲,把资源(有限而宝贵的搜索流量)留给了可能被点击的广告,收入也有所增加。更重要的是,给用户的体验要比到处放广告的网站要好很多。值得一提的是,Google的广告系统每次播放什么广告,不是由任何规则决定的,而完全是利用数据、挖掘相关性的结果。

图3.14 Google其实是一家数据公司,这是它的超级数据中心

Google和很多互联网公司之所以能够取得成功,不仅仅是靠技术,靠数据,更是靠采用了大数据时代的方法论,或者说大数据思维。作为数据公司,它们在做事情的方法上有着和传统工业公司不同的思维方式。相对来讲这些公司很少花大量的时间和资源来寻找确定的因果关系,而是通过从大量数据中挖掘相关性,直接用于产品,因此它们给外界的感觉是产品更新非常快。大数据思维对Google等公司的帮助,我们会在后面的章节里进一步介绍。


从因果关系到强相关关系小结