熵——一种新的世界观
信息论最初是通信的理论。信息这个词如今我们每天都能够听到,有时我们会用信息量大、信息量小这类说法,但是到底有多少信息算是信息量大,其实很多人并没有仔细地想过。我们进一步刨根问底,信息是否能够被量化地度量?如果能,又应该怎么度量,大部分人对这个问题并不清楚。当然,脑筋快的人会马上想到,既然信息和数据有直接的联系,能否以数据量来表示信息量,因为数据量很容易度量。应该讲数据量有些时候可能和信息量有点关系,但是两者不能画等号。比如,一本50多万中文字的《史纪》和两本80万英文单词的《圣经·旧约》和《圣经·新约》,谁的信息量更大?这似乎不是由篇幅和字数来决定的。再比如,大家都明白,看似大量却不断重复的数据,其实里面的信息量是很少的。
那么如何度量信息呢?这个问题其实是几千年来很多人想知道却无法回答的问题。直到1948年,克劳迪·香农在他著名的论文《通信的数学原理》(A Mathematic Theory of Communication)中提出了”信息熵”的概念,才解决了对信息的度量问题,并且量化地给出了信息的作用。同时,香农还把信息和世界的不确定性,或者说无序状态联系到了一起。
首先意识到无序状态这个问题的是奥地利物理学家路德维希·玻尔兹曼(Ludwig Boltzmann,1844~1906)。他发现一个封闭容器内的微观状态的有序程度,即每个原子的位置和动量,与这个容器内气体的热力学性质有关。在玻尔兹曼之前,制作蒸汽机的工程师们已经发现了热力学第二定律48,其中鲁道夫·克劳修斯(Rudolf Clausius)提出了一种叫作”熵”的概念,来描述一个系统中趋向于恒温的程度。当这个系统完全达到恒温时,就无法做功了,这时熵最大。但是在玻尔兹曼之前的工程师和科学家们都没能解释其中的原因。玻尔兹曼则把熵(宏观特性Entropy)和封闭系统的无序状态(每一个分子的微观特性Ω)联系起来,即:
E=k log(Ω)
其中k被称为玻尔兹曼常数。玻尔兹曼等人还发现,在一个封闭的系统中,熵永远是朝着不断增加的方向发展的,也就是说从微观上讲,这个系统越来越无序,从宏观上看它趋于恒温。
图3.11两个容器中,左边的气体温度低,右边的温度高,处于一种有序状态,熵的值较低,混合之后,变成无序状态,熵增加
香农在信息论中借用了热力学里熵的概念,他用熵来描述一个信息系统的不确定性。接下来香农指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为,信息量的度量就等于不确定性的多少,这样香农就把熵和信息量联系起来了。他还指出要想消除系统内的不确定性,就要引入信息。
信息论最初是关于通信的理论。人类进入文明社会之后,除了吃饭睡觉之外,大部分时间其实都在做和通信有关的事情,我们在工作中讨论问题、开会、写邮件,平时和家人聊天,闲暇之余看书、读报、看电视、看电影,都是某种形式的通信,而通信所传输的是某种信息。在科学上,香农的贡献在于第一次量化地度量信息,并且用数学的方法将通信的原理解释得一清二楚。
虽然香农提出信息论最初的目的只是建立通信的科学理论,但是,信息论的作用远不止在科学和工程上——它也是一种全新的方法论。与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。这种思路成为信息时代做事情的根本方法。我们不妨用互联网广告的例子来说明上述原理的作用。
在我们对用户一无所知的情况下,在网页上投放展示广告,点击率非常低,每1000次展示也只能赚不到0.5美元的广告费,因为这等于随机猜测用户的需求,很不准确。如果我们有10万种广告,只有10种与用户相关,那么猜中的可能性就是万分之一。如果用信息论的方法来度量,它的不确定性为14比特左右49。搜索广告因为有用户输入的关键词,准确率会大幅提高,至于提高了多少,取决于关键词所提供的信息量。以汉字词为例,如果一个搜索输入了两个词,每个词平均两个汉字,那么大约能提供10~12比特的信息量,这样大部分不确定性就消除了。假定还是从10万种广告中猜10个,这时猜中的可能性就是十几分之一到几分之一,因此读者点击广告的可能性大增。在实际情况中,Google搜索广告每1000次展示所带来的收入大约是50美元,比展示广告高出两个数量级。这就说明了信息的作用。类似地,我们大致计算出,像Facebook或者Google通过挖掘注册用户的使用习惯,大约能够获得1~2比特的信息量,这样就将广告匹配的难度下降了大约一半,事实上,那些与用户相关的展示广告比完全随机的正好产生高一倍左右的广告收入。
上面虽然是一个特定的例子,但是反映出在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。
当然,用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。比如下象棋,每一种情况都有几种可能,却难以决定最终的选择,这就是不确定性的表现。再比如要识别一个人脸的图像,实际上可以看成是从有限种可能性中挑出一种,因为全世界的人数是有限的,这也就把识别问题变成了消除不确定性的问题。我们在前面一章里讲到了贾里尼克等人的工作,从那时开始,人类在机器智能领域的成就,其实就是不断地把各种智能问题转化成消除不确定性的问题,然后再找到能够消除相应不确定性的信息,如此而已。
我们在利用信息时使用的很多原理和方法,在信息论中都能找到根据。比如用信息论中的一个重要概念——互信息(Mutual Information),可以解释为什么信息的相关性可以帮助我们解决很多问题。在很多时候,我们能够获取的信息和要研究的事物并非一回事,它们之间必须”有关联”,所获得的信息才能帮助我们消除不确定性,搞清楚我们想要研究的问题。比如前面提到的王进喜的照片和大庆油田的位置、产量等情报就属于有关联。当然”有关联”这种说法太模糊,不科学,最好能够量化地度量两件事之间的”相关性”。为此,在信息论里用互信息这个概念,实现了对相关性的量化度量。比如通过对大数据文本进行统计就会发现,“央行调整利率”和“股市短期浮动”的互信息很大,这证实了它们之间有非常强的相关性。而“央行调整利率”和“北京机场大量航班晚点”的互信息则接近于零,说明二者没有什么相关性,甚至无关。
香农除了给出对信息和互信息的量化度量之外,还给出了两个相关信息处理和通信的最基本的定律,即香农第一定律和香农第二定律。这两个定律对于信息时代的作用堪比牛顿力学定律对机械时代的作用。
香农第一定律,也称为香农信源编码定律,它大致的含义是这样的:假定有一个信息源,里面有N种信息,现在我们需要对这N种信息一一进行编码,比如我们用0011表示第一种信息,10000111表示第二种……这些编码当然不能重复,否则我们就无法根据编码来断定是哪一种信息了。虽然编码可以有很多种方法,但是有的方法效率高,有的则效率低,或者说用了很长的编码才能表示一个信息。香农第一定律讲的是,对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但同时香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。
对于没有学过信息论的读者而言,上面这段话可能有点费解,让我们看一个具体的例子就好理解了。比如要对汉字编码,有些字用得多,有些字用得少,因此可以把常用字的编码做得短些,生僻字的编码做得长些,但是不论怎么做,编码的平均长度一定会超过汉字的不确定性,即它们的信息熵,这是香农第一定律的第一层意思。同时,香农第一定律还有第二层意思,也就是说一定存在一种(最优的)编码方法,使得每个汉字的平均编码长度可以非常接近它的不确定性(信息熵)。至于怎么才能做到,霍夫曼(Huffman)给了一个非常简单的方法——只要把最短的编码分配给最常见的汉字即可。这种编码方法具有通用性,又称为霍夫曼编码,它可以被认为是对香农第一定律的补充。
香农第一定律不仅是现代通信的基础,也代表了一种新的方法论。经济学上的吉尔德定律(Gilder's Law),即尽量多地采用便宜的资源,尽可能节省贵的资源,与信息论中的霍夫曼编码从本质上讲是相同的。在信息时代,由于摩尔定律的作用,计算机是便宜的资源,而且越来越便宜,人力成本则会越来越高,因此聪明的公司懂得利用计算机来取代人的工作,像Google或者Facebook这样的公司,都是尽可能地将越来越多的事情交给机器去做,而不是雇用很多人。在过去的半个世纪里,生产力的提高实际上就是靠用便宜的机器取代人工,这种做法有意无意地和信息论的原理相符合。当然,也有的企业主不愿意在IT方面进行投入而坚持使用人工,因为这种投入在初期看上去显得比人工昂贵,这些企业后来就逐渐地被淘汰了。
在信息论中,还有香农第二定律,通俗地讲就是信息的传播速率不可能超过信道的容量,这和我们的现实生活也是契合的。我们经历了互联网发展全过程的这一代人都有这样一种体会,互联网发展的各个阶段实际上是建立在不断拓宽带宽的基础之上的。早期,我们使用电话调制解调器,然后开始使用DSL(数字用户线路),再到后来使用宽带电缆,最后到光纤,都是围绕着不断增加信道容量而进行的,只有信道的容量增加了,传输率才能上去,我们才能从阅读文字,到看图片,到看视频,再到看高清视频,整个互联网才能得到发展。在香农提出他的第二定律之后,人类就开始有意识地不断扩展带宽。
图3.12 2002~2020年全球互联网的带宽呈指数级增长
香农第二定律不仅描述了通信领域最根本的规律,而且它是自然界本身所固有的规律,能够解释很多商业行为。比如我们常说做生意要靠人脉,其实这个人脉就是人与人交往的带宽。如果人脉不够,发出的信息和获得的信息都有限,生意一定做不大。现代通信手段的本质,就是以相对低廉的成本让人们获得人脉,而媒体行业的不断进步,本质上是不断地在为企业拓宽对外连接的带宽,使得它们做生意越来越方便。
关于信息论,还有一个原理必须了解,那就是最大熵原理。这个原理的大意是说,当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。在很多领域,尤其是金融领域,采用最大熵原理要比任何人为假定的理论更有效,因此它被广泛地用于机器学习。最大熵原理实际上已经不同于我们使用了几百年的“大胆假设、小心求证”的方法论,因为它要求不引入主观的假设。当然,不做主观假设的前提是取得了足够多的数据,否则最大熵模型只能给出一些平均值而已,而不能对任何细节进行描述和预测。50
今天,信息论已经被广泛地用于管理,因为它为我们提供了信息时代的方法论。而熵这个词,也成了信息论和不确定性的代名词。也正是因为如此,张首晟教授和我都认为它代表了人类对我们的世界认知度的最高境界。