小结
大数据导致机器革命的到来,这对未来社会的影响不仅仅存在于经济领域,而是全方位的。尽管总体上这些影响是正面的,从长远看会使我们未来的社会变得更好;不过,和以往的技术革命一样,智能革命也会带来很多负面的影响,特别是在它发展的初期,而这些影响可能会持续很久。
任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长的时间里都将是迷茫的一代。在智能革命到来之际,作为人和企业无疑应该拥抱它,让自己成为那2%的受益者;而作为国家,则需要未雨绸缪,争取不要像过去那样每一次重大的技术革命都伴随半个多世纪的动荡。
我们还没有经历过机器在智能上全面超越人类的时代,我们需要在这样的环境里学会生存。这将是一个让我们振奋的时代,也是一个给我们带来空前挑战的时代。
注释
描述
[←1]
关于3K背景辐射的更多描述,读者朋友可以参阅拙著《文明之光》。
[←2]
埃及古尺:英文为Royal cubits,又名皇家肘,估计和英尺类似,是某个法老的肘长。1埃及古尺约为0.524米。
[←3]
勾股定理的严格证明直到古埃及两千年后的毕达哥拉斯(Pythagoras of Samos)才完成。
[←4]
闪米特人:亚非大陆上一个古老的民族,今天的阿拉伯人和犹太人都是闪米特人的分支。
[←5]
预测洪水的大小是为了准确测量可耕种土地的边界。
[←6]
美索不达米亚的原意是指两条河之间的土地。
[←7]
米利都:位于安那托利亚西海岸线上的一座古希腊城邦,靠近米安得尔河口,今属土耳其,以米利都学派而闻名。
[←8]
得洛斯:古希腊的宗教圣地,相传是太阳神和月神的出生地。
[←9]
泰勒斯:希腊七贤之一,古希腊及西方第一个自然科学家和哲学家,他开创了米利都学派,该学派用理性思维和观测到的事实而不是用古希腊神话来解释世界。在几何学上,泰勒斯懂得了相似三角形的原理,并利用影子长度计算出大金字塔的高度。
[←10]
阿那克西曼德:泰勒斯的学生,米利都学派重要学者。
[←11]
菲尔库德斯:得洛斯著名学者,提出了物质不灭和生物进化的理论。
[←12]
儒略历:由罗马共和国独裁官儒略·恺撒(即盖乌斯·尤里乌斯·凯撒)采纳数学家兼天文学家索西琴尼的计算后,于公元前45年1月1日起执行的取代旧罗马历法的一种历法。儒略历中,一年被划分为12个月,大小月交替;四年一闺,平年365日,闰年366日为在当年二月底增加一闰日,年平均长度为365.25日。
[←13]
Knobler, S.; Mack, A.; Mahmoud, A.; et al.(eds.).The Story of Influenza. The Threat of Pandemic Influenza: Are We Ready? Workshop Summary (2005). Washington, D.C.: The National Academies Press, pp.60-61.
[←14]
Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, MarkS. Smolinski and Larry Brilliant, Detecting influenza epidemics using search engine query data, Nature Vol 457, 19 February 2009.
[←15]
关于线性回归模型的更多细节,请参见拙著《数学之美》。
[←16]
哥白尼的日心说模型非常不准确。
[←17]
当然,运气好的话从数据出发也有可能得到和真实模型完全一致的结果,但是这并非数据驱动方法的目标。
[←18]
关于图灵机,请参阅拙著《文明之光》第三册第十八章”计算的时代”。
[←19]
诺威格本人也是数据驱动方法的倡导者之_,但是他和罗素所编写的教科书依然花了大量的篇幅介绍传统的人工智能。
[←20]
在美国的大学里,教授每7~10年左右的时间可以带全薪休假半年,或者带半薪休假一年,这被称为学术休假。在此期间,大部分教授会选择到合作单位做一些科研,以拓宽自己的视野,另一些教授则选择找一个地方去写书。
[←21]
IBM的早期系统只能识别孤立语音,在连续语音识别上,李开复的斯芬克斯(Sphinx)系统领先于IBM的同类系统。
[←22]
Peter. Brown at el, A Statistical approach to Machine Translation, Computational Linguistics, vol 16, no2, 1990.
[←23]
这是因为:第一,当时没有机读语料;第二,很多文学名著不同版本分散在不同国家,而且其翻译常常不是一一对应的;第三,现在很多在互联网前提下看似容易的事情,在当时很难。
[←24]
该公司成立于1968年,是全世界最老的机器翻译公司,但是进入21世纪之后,它的技术变得相对落后,公司开始萎缩,如今其员工在全球不足60人。
[←25]
根据BLEU Score衡量。BLEU(Bilingual Ecaluation Understudy)分数是一种衡量机器翻译质量的客观评分,一般来讲,人工正确翻译的得分为50%~60%。
[←26]
在机器翻译、语音识别和图像识别等领域,依靠技术进步大约每年可以改进0.5%左右。
[←27]
奥科于2004年4月28日Google宣布上市的当天加盟Google,但是随后请假回南加州大学完成教学任务,直到放暑假才正式开始在Google上班。
[←28]
简单地讲,N元模型是考虑N个单词前后的关联,六元模型就是考虑6个单词,而大家当时普遍使用的三元模型只考虑3个单词。
[←29]
Reid J. Robison, How big is the human genome?
[←30]
大量人工统计的数据的处理量是非常大的,耗时也很长。在美国历史上,常常出现人口普查结果10年还统计不完的情况,为了解决这个难题,才催生出IBM公司。
[←31]
缅因州和内布拉斯加州除外,这两个州是按照州内选区分配选举人票数。
[←32]
后来发现这个低级的错误是程序的bug(漏洞)导致的。
[←33]
国际象棋中最常见的开局之―,先行的一方先将王前面的兵跳两步,然后用后兵上前一步保护王兵,这种开局进攻性很强。
[←34]
西班牙的一种开局法,虽然也是先将王前的兵跳两步,但是接下来以王翼的马跳上去保护,然后出象,这种开局能够以最短时间实现王车易位,相对攻守平衡。
[←35]
如今这些计算机在国际象棋上能够轻松战胜任何人。
[←36]
卡罗-康(Caro-Kann)防御是由两位德国棋手卡罗和康共同创立而得名。它的开局的思路是,黑方避开各种复杂的变化,经过兑子快速过渡到中残局,然后拼比后半盘的棋力。
[←37]
对于国际象棋,这些可能性并不多。
[←38]
国际象棋的最高等级是国际特级大师(Grand master,等级分为2500以上),其次是国际大师(Master,等级分2400以上)。
[←39]
Axiom应该翻译成公理,但是早期《几何原本》就译成了公设,因此我们沿用这种习惯。具体内容参见附录。
[←40]
关于对古希腊科学和罗马法的更详细的内容,读者朋友可以参阅拙著《文明之光》第一册。
[←41]
伽利略发现木星的4颗卫星后,他告诉人们在地球以外的天体也可以成为一个中心,这才否认了地球的独特性,进而让人们相信日心说。
[←42]
月光社是当时在英国伯明翰的一个小的学术圏,成员包括博尔顿、老达尔文(查尔斯·达尔文的爷爷)、瓦特、韦奇伍德、约瑟夫·普里斯特里(Joseph Priestley,发现了氧气助燃原理)等,以及通信会员法国的拉瓦锡、美国的富兰克林和杰弗逊。月光社对整个欧美的工业革命产生了巨大的影响,18世纪英国的名人传记中或多或少都会提到月光社。
[←43]
详见本书第七章。
[←44]
摘自《共产党宣言》。
[←45]
时间和空间本身不随运动变化。
[←46]
培养霉菌的方法不仅成本高,而且产量很低。
[←47]
某些细菌会产生一种酶,溶解掉青霉素的有效成分。
[←48]
不可能把热量从低温物体传递到高温物体而不产生其他影响。
[←49]
关于信息论的基础知识,请读者参阅拙著《数学之美》。
[←50]
读者朋友如果想了解最大熵原理的更多细节,可以阅读拙著《数学之美》。
[←51]
在18世纪欧洲人发现澳大利亚之前,由于他们所见过的天鹅都是白色的,所以当时的欧洲人认为所有天鹅都是白色的。后来欧洲人在澳大利亚看到了黑天鹅,原来通过对白天鹅无数次观察得到的结论就失效了。因此,从以往数据得到的结论未必能反映未来的小概率事件。在科学方法上,或者经济学和社会学的研究中,“黑天鹅”隐喻那些极为罕见、在通常的预期之外的事件,它们在发生之前没有前例可以证明,但一旦发生,就会产生极端的影响。
[←52]
奥匈帝国医生,在1847年发现了细菌是导致很多疾病的原因。
[←53]
在此之前要靠培养霉菌提炼青霉素。
[←54]
虽然美国的专利有效期长达17年,并且可以延长3年,但是因为大部分核心专利在药品进行实验时已经申请,中间有非常长的各种实验过程,等到药品上市,剩下的专利有效期通常不超过10年。
[←55]
The Health Consequences of Smoking, A Report of The US Surgeon General, 2004.
[←56]
意指被告的一方在法庭上先被假定为无罪,除非有足够的证据证明其有罪。
[←57]
在人口流动性较大的地区,比如城市里或者经济发达地区,很难找到一群基因非常接近的人,而这一点在经济不太发达、人们世世代代住在一起很少流动的地区才能做到。
[←58]
今天这项服务被称为AdSense for Content(谷歌内容广告)
[←59]
各家搜索引擎对点击模型的依赖权重虽然有大有小,但是都在60%以上。
[←60]
原文中无”半径”二字出现,此处”距离”即圆的半径。
[←61]
这就是大家提到的欧几里得第5公设,即现行平面几何中的平行公理的原始等价命题。
[←62]
这里的”量”与第4条公理中的”物体”在原文中是同一个字thing。
[←63]
为了区别面积相等与图形相等,《几何原本》译者将图形”相等”译为”全等”。
[←64]
http://www.seattletimes.com/seattle-news/big-time-pot-growers-use-seattlearea-homes/
[←65]
[←66]
https://www.sba.gov/sitesdefaultfiles/FAQ-Sept-2012.pdf.
[←67]
IRS Releases New Tax Gap Estimates,2008,www.irs.gov.
[←68]
Jeff Butler. Discusses the IRS Research Division's Big Data Techniques,Meritalk,2016.
[←69]
http://www.governing.comcolumnstech-talk/gov-states-big-data-tax-fraud.html这家网站给出了一些利用大数据查处偷漏税的案例。
[←70]
第一大连锁百货店是沃尔玛。
[←71]
美国一些商店提供将发票发到顾客邮箱中的服务,一些顾客为了和信用卡对账方便,愿意提供邮箱或者手机号。
[←72]
http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=1&r=1&hp.
[←73]
在美国,很多大公司的IT业务是外包给专门的IT服务公司的。
[←74]
[←75]
关于RFID(Radio Frequency Identification,射频识别,简称RFID)的原理,我们在第五章中介绍。
[←76]
John McCormick,Prada:The Science of Desire,http://www.baselinemag.com/c/a/Projects-Customer-Service/Prada-The-Science-Of-Desire,2002年12月16日。
[←77]
在拉丁语系的语言中,比如西班牙语中,不同性别使用的名词、定冠词甚至动词都是不同的,这种情况比在英语中的还要复杂得多,在中文里用词基本没有性别的区分。
[←78]
1英里=1.609344公里。——编者注
[←79]
有一次交通意外是自动驾驶汽车被其他车辆撞了。
[←80]
关于瓷器的诞生时间,专家们说法不一,从汉末三国到后唐五代的说法都有。不过瓷器真正成为中国重要的产业是从北宋时期开始的。关于瓷器历史更多的内容,读者朋友可以参阅拙著《文明之光》。
[←81]
冶金业虽然是人类最古老的行业之一,但是在没有电之前,人类只能生产很少几种金属(金、银、铜、铁、锡和铅等)和合金(青铜),而且一般都很难做到精纯。法国皇帝拿破仑三世是一个喜欢奢华的人,他常常大摆宴席。宴会上,客人的餐具是用银制成的,而他自己却用铝制品,因为当时冶炼铝十分困难,铝的价格比黄金高昂得多。有了电之后,人们发明了电解铝的制造方法,铝的价格就跌到了我们今天说的白菜价,也正因为如此,铝才能够被广泛地应用于各行各业。即使是人类最早使用的金属铜,在过去的几千年里,人类使用的都是粗铜,如果用来做导线,不仅电阻比较大,而且容易折断。而真正的精铜,也需要靠电解才能获得。至于其他各种金属和合金的制造,则更离不开电了。有了这些合金,才有了后来的肮天和航空工业。
[←82]
今天投资者依然可以要求上市公司提供纸质的股票,但是没有人这么做。
[←83]
[←84]
AMD:超微半导体公司。——编者注
[←85]
关于这一点,有兴趣的读者可以参考拙著《浪潮之巅》。
[←86]
这是2015年的上传速度。
[←87]
计算量的增加取决于算法的复杂度。对于排序这样的计算,数据量增加N倍,计算时间会增加NLogN倍;对于矩阵运算,则可能增加N2倍。
[←88]
比如做一个公司或者APP,直接卖数据或者把公司卖掉。
[←89]
在美国,帮助接线的电话是411。
[←90]
1PB=1024TB。——编者注
[←91]
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。
[←92]
在Google内部,Dremel原先的项目代号是Big Table。
[←93]
很多机器学习的算法都不是多项式复杂度的,因此算法专家致力于将这些算法在特定应用中做一些近似和简化。即便如此,这些简化后的算法也是高阶多项式的,数据量增加一点点,复杂度会增加很多。
[←94]
见参考文献(Quoc Le,2012)。
[←95]
关于Google大脑的技术细节,有兴趣的读者可以参看拙著《数学之美》。
[←96]
http://techcrunch.com/2015/02/25/target-says-credit-card-data-breach-cost-it-162m-in-2013-14.
[←97]
http://www.businessinsider.com/sonys-hacking-scandal-could-cost-thecompany-100-million-2014-12.
[←98]
[←99]
http://www.usatoday.comstorymoney/cars/2013/03/24/car-spying-edr-dataprivacy/1991751/.
[←100]
http://www.cnagri.com/mucaixw/aigeshidian/20130308/220677.html.
[←101]
http://www.ishitech.co.il/0112ar8.htm.
[←102]
此前的记录是由乔丹时代的芝加哥公牛队保持,一个赛季获胜72场。
[←103]
数据来源:世界银行。
[←104]
绝大部分时间里,该医院被评为全美最好的医院。
[←105]
美国总统看病的指定医院,类似于中国的301医院。
[←106]
Price Waterhouse Coopers. The factors fueling rising healthcare costs 2006 [Internet] NewYork(NY):Price Waterhouse Coopers;2006. Jan.
[←107]
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3048809/table/TI/.
[←108]
按照美国的法律,急救的病人送到医院后必须救治,即使没有保险,这笔钱医院一般是拿不回来的。另外,很多患者临终前最后一笔医疗费医院是拿不到的。医院实际上将这些亏损变相地加到了有医疗保险的病人身上。
[←109]
2014年美国中位数年薪是5.2万美元。
[←110]
目前美国总统的年薪是40万美元。
[←111]
http://arxiv.org/ftp/arxiv/papers/1401/1401.0166.pdf.
[←112]
在美国排名前三的医学院(哈佛医学院、约翰·霍普金斯医学院和斯坦福医学院)录取率一般在2%左右,而哈佛大学本科录取率为5%~6%。
[←113]
IBM预测医疗数据每73天翻一番,直到2020年。http://www.ibm.com/smarterplanet/us/en/ibmwatson/health/.
[←114]
基因泰克公司的主营业务是利用基因技术研制抗癌药。
[←115]
如果刻意用很大剂量的药物试图杀死所有的癌细胞,可能导致人的免疫系统先被破坏,对患者反而有害无益。在救治的过程中,因免疫系统被破坏而死亡的病人非常多。
[←116]
大部分人终身并不会得癌症,因此将癌症患者寿命延长的时间平摊到所有人头上,远没有想象的那么多。
[←117]
突破奖(Break through Prize)由布林夫妇、马云夫妇、扎克伯格夫妇和俄罗斯著名投资人米尔纳夫妇设立,每年授予在生命科学、数学和理论物理学领域做出杰出贡献的科学家,由于每个奖项的奖金数额高达300万美元,远远超过目前诺贝尔奖的170多万美元,又被称为超级诺贝尔奖。和诺贝尔奖所不同的是,该奖获奖的项目并不需要验证其影响力,因此可以被授予最新的科技突破,而不是几十年前的重大贡献。
[←118]
http://www.cnet.com/news/how-much-is-that-patent-lawsuit-going-to-costyou/.
[←119]
简单地讲统计语言模型是一个判定单词串是否像一个合理的句子的概率模型。要想了解语言模型更多的细节内容,请参见拙著《数学之美》。
[←120]
在美国,很多道路在交通高峰期要求车上必须坐有两个或两个以上的人才能使用快速车道,这些车道被称为拼车车道。
[←121]
包括除了英美之外的几乎所有国家。
[←122]
在商品经济比较发达的国家,法律对假货的处罚不是简单的一赔三或者一赔十这么简单,而是把赔偿的对象扩展到所有可能的受害者,通常在销售假货商家中,从销售类似产品一开始算起,把所有在那个商家购买过商品的顾客都算进去,因此我们经常看到因为产品质量而动辄赔偿上亿美元的新闻。对于大公司,这会大伤元气,对于小商家,一次假货的销售可能会导致其破产。对于其他欺诈行为,也可以通过集体诉讼的方式进行严厉的处罚。
[←123]
折算成1990年的购买力。
[←124]
这是按照购买力计算的,如果不考虑物价水平,1979年中国实际的人均GDP不到200美元。
[←125]
摘自《共产党宣言》。
[←126]
《嘉莉妹妹》《珍妮姑娘》和《美国的悲剧》等小说的作者。
[←127]
美国于1916年通过了亚当森法案(Adamson Act),规定8小时工作制,一些企业比如福特公司也率先实行了8小时工作制,但是在全美国全面实现8小时工作制是到20世纪30年代的事情了。
[←128]
如果看市场份额,通用汽车公司在全球的份额远没有20世纪五六十年代高。
[←129]
包括变相下岗的所谓提前退休的员工,以及一些老员工的遗孀。
[←130]
美国三大汽车公司之一的克莱斯勒实际上已经是欧洲菲亚特公司的子公司。
[←131]
根据美国劳工部的统计,美国农业工人早已经占不到劳动力人口的2%。
[←132]
哈佛大学和麻省理工学院所在地。
[←133]
美国高净值家庭放在不动产上的财富一般不超过5%。
[←134]
http://www.cnbc.com/2015/04/13/top-1-pay-nearly-half-of-federal-incometaxes.html.
[←135]
美国在4年总统任期之中偶数的年份,需要重新选举全部的众议员、三分之一左右的参议员和部分州的州长,这个选举被称为中期选举。
争当2%的人这是最后一篇