近一段时间继续在学习吴军老师的《信息论40讲》,刚好学到信息的起源这一步氛围,其中有一些概念比较难以理解,在此梳理一下,为以后的学习做准备。
信息熵:
信息熵是指不确定性的多少,和文字的长短无关,很长的一段的磨叽包含的信息量并没有多少。而有时短短几页纸的论文中所包含的信息量确很大。
信息编码的长度:
要理解编码的长度这个概念,首先要理解的是编码方式。那数字举例,0-99这100个不同的数字如果像远古时代一样,每个数字都用完全不同的记号来编码,那么编码的长度则为1。如果用我们常用的十进制即0-9来编码,表示0-99则需要2位。而如果用计算机世界的二进制来进行编码,那需要的位数则为log2=6.65,再向上取整即为7位编码,例如表达0这个数是0000000,表达22是00010101,表达99则是1100011。可见,对同样的信息进行编码,每一位编码的可能性越少,编码的长度越长。
信息编码的复杂性:
在上边的例子中,如果我们想用100进制来表达数字,则我们需要记忆我100个不同的文字,这样表达一个很大的数字虽然需要的位数不多,但是记忆起来却十分麻烦,实在太复杂。而另一个极端,二进制,虽然其编码的长度很长,但是使用者只需要记住0和1这两个数字,编码的复杂性是很低的。我们现实生活中则在信息编码的长度和复杂性之间选取了一个平衡,选用十进制。
信息编码的易辨识性:
易辨识性是判断一个信息编码好坏的关键,0-9阿拉伯数字各个长相差异明显,具有很好的易辨识性,因此我们在生活中很少听说看错了数字或者分不清数字。汉字中有些字的易辨识性不是很高:雪碧、雷碧,清风、清凤,奥利奥、粤利奥,相信很多人都被坑过吧。英文中小写字母l和大写字母I也是易辨识性不是很好的表现。但是总体上来讲汉字和英文字母的易辨识性是相当不错的,因此也能沿用至今。
信息编码的有效性:
信息编码的有效性是指用同样的资源是否能尽可能多的表达出不同的意思。在谍战片中,往往就要求用很短的话表达出很多种意思。用10 根手指能表达出多少个数字?有人能够表达出11个,即0-10,我们平常就是这么做的。聪明一点的人能够表达出1024 个,即用二进制的方法。显然这种编码方式是更加有效的。往往增加编码的复杂性也可以增加编码的有效性,例如将手指分为伸直,半弯曲和弯曲三种状态,10 根手指则可以表达出3 的 10 次方,59049种不同的状态,但是这样编码的易识别性就降低了。