转载

信息熵

起码直觉上而言是可以的,不然怎么可能我们觉得有些人说的废话特别多,“没什么信息量”,有些人一语中的,一句话就传达了很大的信息量。

     为什么有的信息量大有的信息量小?

有些事情本来不是很确定,例如明天股票是涨还是跌。如果你告诉我明天NBA决赛开始了,这两者似乎没啥关系啊,所以你的信息对明天股票是涨是跌带来的信息量很少。但是假如NBA决赛一开始,大家都不关注股票了没人坐庄股票有99%的概率会跌,那你这句话信息量就很大,因为本来不确定的事情变得十分确定。

而有些事情本来就很确定了,例如太阳从东边升起,你再告诉我一百遍太阳从东边升起,你的话还是丝毫没有信息量的,因为这事情不能更确定了。

所以说信息量的大小跟事情不确定性的变化有关。

    那么, 不确定性的变化跟什么有关 呢?

一,跟事情的可能结果的数量有关;二,跟概率有关。

先说一。

例如我们讨论太阳从哪升起。本来就只有一个结果,我们早就知道,那么无论谁传递任何信息都是没有信息量的。当可能结果数量比较大时,我们得到的新信息才有潜力拥有大信息量。

二, 单看可能结果数量不够,还要看初始的概率分布。例如一开始我就知道小明在电影院的有15*15个座位的A厅看电影。小明可以坐的位置有225个,可能结果数量算多了。可是假如我们一开始就知道小明坐在第一排的最左边的可能是99%,坐其它位置的可能性微乎其微,那么在大多数情况下,你再告诉我小明的什么信息也没有多大用,因为我们几乎确定小明坐第一排的最左边了。

    怎么衡量不确定性的变化的大小呢?怎么定义呢?

这个问题不好回答,但是假设我们已经知道这个量已经存在了,不妨就叫做信息量,那么你觉得 信息量起码该满足些什么特点呢?

    一,起码不是个负数吧,不然说句话还偷走信息呢~

二, 起码信息量和信息量之间可以相加吧 !假如你告诉我的第一句话的信息量是3,在第一句话的基础上又告诉我一句话,额外信息量是4,那么两句话信息量加起来应该等于7吧!难道还能是5是9?

三,刚刚已经提过,信息量跟概率有关系,但我们应该会觉得, 信息量是连续依赖于概率的 吧!就是说,某一个概率变化了0.0000001,那么这个信息量不应该变化很大。

四,刚刚也提过,信息量大小跟可能结果数量有关。 假如每一个可能的结果出现的概率一样,那么对于可能结果数量多的那个事件,新信息有更大的潜力具有更大的信息量 ,因为初始状态下不确定性更大。

    那有什么函数能满足上面四个条件呢?负的对数函数,也就是-log(x)!底数一般取2。前面再随便乘个常数也行。

a. 为什么不是正的?因为假如是正的,由于x是概率,小于等于1的数,log(x)就小于等于0了,取反为正数,第一个特点满足。

b. 咱们再来验证一下其他特点。三是最容易的。假如x是一个概率,那么log(x)是连续依赖于x的。

c。四呢?假如有n个可能结果,那么出现任意一个的概率是1/n,而-log(1/n)是n的增函数,没问题。

d。最后验证二。由于-log(xy) = -log(x) -log(y),所以也是对的。学数学的同学注意,这里的y可以是给定x的条件概率,当然也可以独立于x。

所以我们知道 一个事件的信息量就是这个事件发生的概率的负对数

最后终于能回到信息熵。信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。 信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望

信息熵

以上部分知识点是来自知乎的回答:http://www.zhihu.com/question/22178202/answer/57007321

在来看看官方定义信息熵是怎么回事。在信息论里面,熵(entropy)是信息不确定性的一个测度,熵越大则表示信息的不确定程度越高。这么说好像的确有点抽象,还是用公式解释吧:

信息熵

这里H是熵,U可以理解为所有可能事件的集合,P(x)则是某一具体事件x发生的概率,对数的底一般取2。举个例子,预测明天的天气,如果能100%确定明天一定是晴天,那么熵就是-1*log1=0,也就是说不确定性为零。如果说明天有50%概率晴天,50%概率下雨,那么熵就是-0.5log0.5-0.5log0.5=(-0.5)(-2)+(-0.5)(-2)=1,可以说不确定性为1。而如果明天有25%概率晴天,25%概率下雨, 25%概率阴天, 25%概率下雪,那么熵就是4*(-0.25)(log0.25)=2, 也就是说随着不确定程度的增加,熵也在不断地增大。再举个例子,你可以统计一下我这段话里面不同的字出现的频率,然后算出这段话的熵,几乎可以肯定,这个熵会比一段胡乱打出的字的熵要低,因为胡乱打出的字所包含的不确定性比较高。

通过上面解释可以看出信息熵可以量化信息大小、信息不确定程度。所以可以看出“熵”是一种量化工具,下面看看其它领域带“熵”应用,熵在热力学和其他一些领域中也有出现,虽然于信息熵的定义不尽相同,不过基本上都是用来表示系统的无序程度的。热力学上熵可以理解成另一种意义上的温度就好了。温度是一个状态函数,温度高的时候你觉得热,心情烦躁。温度低了你又觉得冷,浑身发抖。温度适宜,你才会觉得“状态好”。熵也是一个状态函数,无论是在信息学意义上还是在热力学意义上,熵太高了都意味着混乱,就像一群在热锅上团团乱转的蚂蚁。熵低了则意味着混乱的反面——有序,就好像把那一锅蚂蚁突然加液氮全部冻住,一切都会变得秩序井然,冰冷,简单。从物理本质上讲,温度反映了微观分子活动的剧烈程度,降温时分子运动变弱,这也就意味着它们的状态变少了。状态变少了,熵也就小了,所以熵这个概念是温度天生的双胞胎弟弟,只是出世稍微晚了些年头。稍微了解热力学第二定律的人都知道,一个封闭系统的熵总是在不断增加的,熵增可以说是宇宙最本质的规律之一。但是像我们人类这样的智慧生命,却一直在创造 着负熵,我们希望社会更加有序。大部分人的一生发展过程也是从大熵到小熵,正熵到负熵的过程,工作也是这样,开始时候啥都不懂,混乱一片,熵很大,最后慢 慢逐渐由调理,最后从事机械式的劳动,简直到负熵了。所以一个有意义的人生熵应该是正弦振荡的。

熵的应用:

之前在知乎上看到有人提问什么样的用户体验是最好的?用户体验能不能量化?我想我们可以借助熵的概念去定义一个用户体验熵,用体验熵来量化用户体验,你觉得呢?

熵的更多应用,后续再更新

参考资料:

http://www.zhihu.com/question/22178202/answer/49929786  来自知乎

http://www.zhihu.com/question/22178202/answer/57007321

来源:知乎

正文到此结束
Loading...