金榜之路
学大陪你
个性化辅导
关于我们  |  联系我们

【什么是香农熵-图】百科知识点

来源:学大教育     时间:2017-12-06 10:22:07


关于数学学习很有多内容需要大家掌握,提前了解这些内容能够加深大家对数学学习的认识,下面学大教育网为大家带来【什么是香农熵-图】百科知识点,希望对大家学好数学知识能够有所帮助。

【什么是香农熵-图】百科知识点

1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。

有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。

以上就是学大教育网为大家带来的【什么是香农熵-图】百科知识点,希望大家能够在平时开阔自己的数学知识面,这样才对以后的数学学习有所帮助。

网站地图 | 全国免费咨询热线: | 服务时间:8:00-23:00(节假日不休)

违法和不良信息举报电话:400-102-8926 举报邮箱:info@xueda.com 网上有害信息举报专区

京ICP备10045583号-6 学大Xueda.com 版权所有 北京学大信息技术集团有限公司 京公网安备 11010502031324号

增值电信业务经营许可证京B2-20100091 电信与信息服务业务经营许可证京ICP证100956