您当前的位置：呼和浩特学大教育 > 呼和浩特资讯 >呼和浩特> 【什么是香农熵-图】百科知识点

【什么是香农熵-图】百科知识点

来源：学大教育时间：2017-12-06 10:22:07

关于数学学习很有多内容需要大家掌握，提前了解这些内容能够加深大家对数学学习的认识，下面学大教育网为大家带来【什么是香农熵-图】百科知识点，希望对大家学好数学知识能够有所帮助。

【什么是香农熵-图】百科知识点

1948 年，香农提出了“信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。

对于任意一个随机变量 X(比如得冠军的球队)，它的熵定义如下：变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

当然，香农不是用钱，而是用 “比特”(bit)这个概念来度量信息量。一个比特是一位二进制数，计算机中的一个字节是八个比特。在上面的例子中，这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛，那么“谁世界杯冠军”的信息量就是六比特，因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。

有了“熵”这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作“冗余度”(redundancy)。需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。

以上就是学大教育网为大家带来的【什么是香农熵-图】百科知识点，希望大家能够在平时开阔自己的数学知识面，这样才对以后的数学学习有所帮助。

上一篇：【什么是零向量-图】百科知识点下一篇：【什么是间接测热法-图】百科知识点

【什么是香农熵-图】百科知识点

相关推荐

热门资讯

2019年内蒙古普通高校招生报名工作安排公布

★2019年内蒙古普通高考报名时间已确定

2019年内蒙古自治区普通高校招生报名信息采集办法

2019年内蒙古高中学业水平考试报名时间【11月1日-15日】

2019年内蒙古高中学业水平考试时间【2019年1月5-6日】

2019年内蒙古高中学业水平考试考籍信息注册注意事项

内蒙古全区学业水平考试报名即将开始

内蒙古2018年高考共录取考生18万余人

★2018年呼和浩特中考准考证号查询系统及方法

热门问题

青岛高二学生去学大教育补习怎么样？

秦皇岛高二学生英语差如何能进步？

乌海初三化学成绩差有必要补习吗？

兰州初中生报假期班有什么效果？

深圳学大教育辅导班的费用贵吗？

太原高中生从几个方面选择托管班？

中小学辅导机构哪家比较好？

小升初数学学习技巧有哪些？

热门标签

热门城市

热门校区