学过数模的同学对于评价模型中的“熵权法”(entropy weighting method)应该不陌生,该方法利用数据提供的“熵”的信息来确定不同指标的权重;机器学习的一个重要模型——决策树模型,在决定其指标划分的准则中包含信息增益、信息增益比等方法,利用的原理仍然是“熵”。我们也可能在其他环境比如物理、化学(这是熵最原始的出处)还有社会科学中听到过关于熵的说法。
本文就来系统地梳理一下:
熵,究竟是什么?
字宙中的任何物体都处于运动状态。运动产生了能量,而能量又可以以动能、势能、化学能等多种形式存在,并且还可以随时转换。不同形式的能量在传递和转换的过程中遵循着守恒的定律,这就是能量守恒定律,又被称为热力学第一定律。
但除了能量之外,物体内部的分子也会不断震动,震动频率的大小需要有一个指标来衡量,这个指标就是“熵”。熵,英 语是entropy,希腊语为entropia。在希腊语中,entropia的意思是“内在”,“熵”来自热力学第二定律,“熵”的本质是一个系统“内在的混乱程度”。比如你打开煤气,加热一壶水,水烧开了,但煤气从化学能转化为热能的过程中,并非100%都进行了转化,一部分热能传递给了周围的空气,并消散在宇宙之中。而这部分的能量不可逆,永远无法再次被利用,并且永远在增加。
熵增表示一个系统从相对有序的状态向相对无序的状态的演变。而“负熵”与熵增的概念相反,是系统从无序向有序演变的趋势。 比如绿色植物在太阳光的照耀下,将太阳能转化成生物能;种子发芽生长,开出花朵;蔬菜成长、成熟,结出果实等都是负熵。
那什么是“熵增定律”呢?
“熵增定律”是对热力学第二定律的一种表述方式。简单地说,嫡增定律是指一个孤立系统,即非活的系统如果被独立开来,又或者把它放置到一个均匀的环境中去,环境中的所有运动都会因为摩擦力的存在而在极为有限的 时间里停下来。
水从高处流到低处,电流从高势能流向低势能,各种势能都会消失;高温也会变为低温并达到平衡。最终,整个系统会退化为死气沉沉、毫无生气的一团物质。这种状态将永久不会改变,人们再也无法观察到系统中的任何变化,因为它已经归于死寂。
熵增定律在许多人看来是十分消极、无奈的定律,虽然没人能逃过熵增定律,但高手懂得如何对抗它。熵增定律有效需要同 时满足两个条件,缺一不可:一个是没有外力做功,另一个是孤立系统。因此,如果有外力做功和系统开放,就能对抗熵增,实现负熵。
是谁提出了熵的概念呢?
1824年,法国工程师卡诺(Carnot''s theorem)提出了热力学中的卡诺定理,卡诺定理指出各种利用内能做功的机械(热 机),比如内燃机、蒸汽机等最大热效率只和它们的高温热源与低温热源有关。
之后,鲁道夫·克劳修斯(Rudolf JuliusEmanuel Clausius)在此基础上对热功转换的问题进行了更深人地研究,克劳修斯敏锐地发现了卡诺定理内部存在不和谐,他承认了卡诺定理中有关“热产生功必然伴随热向冷传递”的结论,但否认了“热的量不发生变化”的断言。
1850年,克劳修斯正式发表的论文《论热的动力以及由此推出关于热本身的定律》中提出:除了能量守恒定律之外,另外 需要补充一条定律,即:没有某动力的消耗或其他变化,不可能使热从低温转移到高温。该定律被后世称为热力学第二定律。
1851年,开尔文(Kelvins)提出了热力学第二定律的另一种表述方式:不可能制成一种循环动作的热机,丛单一热源取 热,使之完全变为功而不引起其他变化。
1854年,克劳修斯又发表了论文《力学的热理论的第二定律的另一种形式》,不仅用数学公式表述了可逆过程中的热力学 第二定律,而且还首次引人了“熵”的参态量。
1865年,克劳修斯发表论文《力学的热理论的主要方程之便于应用的形式》,正式把这一参态量命名为“熵”,并且证明了在任何孤立系统中,系统熵的总和永不减少。 自此,熵增定律正式被发现。
总结来看,就是熵增是一个“自然”的状态,是从有序到无序的过程。如果要让熵减,就需要额外做功。熵越小往往越“好”,越大则越“不好”。
如何用数学描述熵呢?
1948 年,香农提出了“信息熵”(shāng) 的概念,解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。
对于任意一个随机变量 $X ,$ 它的熵定义如下: $$ H(X)=-\sum_x P(x) \log _2[P(x)] $$ 变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
以世界杯赛为例。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军"? 他不愿意直接告诉我,而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了, 那么我需要付给他多少钱才能知道准是冠军呢?
我可以把球队编上号,从 1 到 32,然后提问:“冠军的球队在 1-16 号中吗?"假 如他告诉我猜对了,我会接着问: “冠军在 1-8 号中吗?”假如他告诉我猜错了,我自然知道冠军队在 9-16 中。这样最多只需要五次,我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。
此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为像巴西、德国、意大利这样的球队得冠军的可能性比 日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把 32 个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性 (概率) 不等时,“谁是世界杯冠军”的信息量的信息量比五比特少。
香农指出,它的准确信息量应该是 $$ -\left(p_1 \times \log p_1+p_2 \times \log p_2+\ldots+p_{32} \times \log p_{32}\right) $$ 其中, $p_1, p_2, \ldots p_{32}$ 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 $\mathrm{H}$ 表示,单位是比 特。可以推算当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。
香农熵(Shannon entropy)在生物信息领域基因表达分析中也有广泛的应用,如一些或一个基因在不同组织材料中表达情况 已知,但如何确定这些基因是组织特异性表达,还是广泛表达的,那我们就来计算这些基因在N个样本中的香农熵,结果越趋近 于 $\log 2(\mathrm{~N})$ ,则表明它是一个越广泛表达的基因,结果越趋近于0则表示它是一个特异表达的基因。
熵这一名称并不是香农首先提出的。最先提出的是“热熵”,它是热力学系统的一个状态函数,热熵是物理系统无序性的量度,热熵越大,表明物理系统可能的微观状态数也就越多,从微观上看,系统就越变化多端,越没有秩序。
香农在研究随机变量不确定性量度时所得的式在数学模型层次上与热熵完全相同,所以香农也把它称作熵,一般称其为信息 熵或香农熵。
若把系统分子的相空间作为系统宏观状态的状态空间,则按分子在相空间中的分布而求得的香农熵$H$与其热热熵 $S$ 有如下的关系: $S=k H$ 因此,可以认为热熵是香农熵的一个特例,它仅仅是分子在相空间所处位置的不确定性的量度。 然而,热樀是有量纲的,而香农嫡是无量纲的,这是两者的重大差别。
对于随机变量而言,其取值是不确定的。在做随机试验之前,我们只了解各取值的概率分布,而做完随机试验后,我们就确切地知道了取值,不确定性完全消失。这样,通过随机试验我们获得了信息,且该信息的数量恰好等于随机变量的熵。在这个意义上,我们可以把熵作为信息的量度。
《熵增定律》是何圣君、王怡的一部著作,将熵增原理提升到人生哲学的高度,通过将物理世界与人生类比,得到很多有价值的见解。
熵增,使有序变为混乱,是“负面”的状态。人不能放任自己“无序”下去,所以就要对抗这种趋势,就要做到“反熵增”或者说是“熵减”。怎么做到呢?书中提到可以通过建立耗散结构和避免路径依赖来实现对个人和组织的熵减。
什么是耗散结构?耗散结构是由化学家普利高津提出的一个理论,是一个远离平衡态的开放系统。换言之,如果一个人处于 持续不平衡或者不均匀的状态中,他就不会陷人熵死的状态。耗散结构是一种型,它的本质依旧是外力持续做功。 任正非曾打过一个比方,一个人如果每天都跑步去锻炼身体,这就是一种典型的耗散结构。因为身体的能量通过跑步耗散,吃下去的蛋白质就能转化为肌肉,血液循环会更快;能量消耗了,诸如糖尿病、肥胖症等会逐渐消失,这个人的身材也会变 得更苗条。这就是一个最简单的耗散结构。
同样地,一个人如果不停地突破自己的舒适区,通过学习输出和使用他所学到的知识和技能也是一种耗散结构。 因为在输出和使用知识或技能的时候,这些学识、认知、技能会逐步内化为个人的行为和习惯,帮助他跃迁到更高的认知层级,拥有更美好的人生。
除了建立耗散结构,个人还应当避免路径依赖。路径依赖类似于物理学中的惯性,是指一旦进人某个路径,就可能对这个路 径产生依赖。这是一个不断自我强化的过程,不能让人轻易走出来。使“路径依赖”理论声名远扬的学者是道格拉斯·诺斯,他因此获得了1993年的诺贝尔经济学奖。和“耗散结构”相似,路径依赖也是一种型。路径依赖的本质是封闭,在原有的系统里不停地循环。而避免路径依赖则要求个人找到原有系统以外的路径。在找寻新路径的过程中,必然需要突破原有的系统,到一个更大、更开放的系统中去探路。
比如20世纪80年代,在中国,出租车司机是一个很赚钱的职业,普通工人月收人只有几十元,而出租车司机每月可以挣到 1000元以上。但30多年过去了,会开车的人越来越多,当年20多岁的司机如果陷入路径依赖中,还在以开出租车谋生,他的情况就会每况愈下;而有的年轻司机在二十世纪八九十年代赚了第一桶金,然后用这第一桶金在其他赛道上寻找新的路径(比如20世纪90年代末买房,之后在淘宝创业,再后来做价值投资),那么他可能就会和还在做出租车司机的人拥有截然不同的人生。
真实世界是非连续性的,这个世界唯一不变的就是一切随时都在改变。因此,一个人如果能避免路径依赖,他也能克服熵增,实现负熵,一次又一次地进人新的开放系统,闯出下一条路径。
书中还提到了如何建立耗散结构,怎样深度运用包括“成长型思维、损失厌恶原理、从众效应、路径依赖效应、心流效应、罗森塔尔效应、马蝇效应、德西效应、霍桑效应、帕累托定律以及复利效应”这些心理效应和定律,从而使人有策略地、 持续地变得更好。对这部分内容感兴趣的读者可以阅读一下这本书。
本文从物理中熵的发现,信息学中熵的数学模型,讲到如何在人生中实现“熵减”。梳理了关于熵的一些重要概念,当同学们学习有关熵的知识时,可以综合以上脉络,综合思考,有助于对这个概念的把握。
参考资料: