【什么是香农熵-图】百科知识点
来源:学大教育 时间:2017-12-06 10:22:07
关于数学学习很有多内容需要大家掌握,提前了解这些内容能够加深大家对数学学习的认识,下面学大教育网为大家带来【什么是香农熵-图】百科知识点,希望对大家学好数学知识能够有所帮助。
1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。
对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。
有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。
以上就是学大教育网为大家带来的【什么是香农熵-图】百科知识点,希望大家能够在平时开阔自己的数学知识面,这样才对以后的数学学习有所帮助。
热门资讯

-
2019年内蒙古普通高校招生报名工作安排公布
2018-11-11 -
★2019年内蒙古普通高考报名时间已确定
2018-11-07 -
2019年内蒙古自治区普通高校招生报名信息采集办法
2018-10-31 -
2019年内蒙古高中学业水平考试报名时间【11月1日-15日】
2018-10-24 -
2019年内蒙古高中学业水平考试时间【2019年1月5-6日】
2018-10-24 -
2019年内蒙古高中学业水平考试考籍信息注册注意事项
2018-10-24 -
内蒙古全区学业水平考试报名即将开始
2018-10-23 -
内蒙古2018年高考共录取考生18万余人
2018-08-16 -
★2018年呼和浩特中考准考证号查询系统及方法
2018-08-09
热门问题
-
青岛高二学生去学大教育补习怎么样?
2021-09-03 -
秦皇岛高二学生英语差如何能进步?
2021-09-03 -
乌海初三化学成绩差有必要补习吗?
2021-08-13 -
兰州初中生报假期班有什么效果?
2021-06-25 -
深圳学大教育辅导班的费用贵吗?
2021-06-25 -
太原高中生从几个方面选择托管班?
2021-06-18 -
中小学辅导机构哪家比较好?
2021-06-18 -
小升初数学学习技巧有哪些?
2021-06-04