天天看点

熵与条件熵

熵是表示随机变量不确定性的度量,设X是一个取有限个值的离散随机变量,其概率分布为

则随机变量X的熵定义为 若对数以2为底或以e为底,这时熵的单位分别称为比特或纳特。熵只依赖与X的分布,而与X的取值无关,所以也可将X的熵记作。熵越大,随机变量的不确定性越大。

若一个随机变量只有两个值,那么当X的分别为为P(x1)=P(x2)=0.5的时候,熵最大,变量也最不确定。

条件熵

设有随机变量(X,Y),其联合概率分布为 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下,Y的条件概率分布的熵对X的数学期望

这里,

这里注意,这个条件熵,不是指的,即不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?不是这样的,条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

举个例子:

一颗小花开花或不开花是一个随机事件,用随机变量X表示。现有一些样本X={开 开 开 开 开 开 开 开 开 不 不 不 不 不 }

可以估计P(X=开)=9/14  P(X=不)=5/14

那么X的熵为-(9/14)log(9/14  ) -(5/14)log(5/14  )

现在还有一个变量时Y,是一个天气的变量(晴 阴 雨),且P(晴)=5/14  P(阴)=4/14  P(雨)=5/14,

并且我们有在天气的条件下,小花开花的情况(也就是按天气这个条件,对小花的开花情况分类):

我们也就有了在Y情况下,X的概率分布。于是,我们就有了H(Y|X)=

其实条件熵意思是按一个新的变量的每个值对原变量进行分类,比如上面这个题把开 不 按晴阴雨分成了三类,然后在每一个小类里面,都计算一个小熵,然后每一个小熵乘以各个类别的概率,然后求和。我们用另一个变量对原变量分类后,原变量的不确定性就会减小了,因为新增了Y的信息,可以感受一下。不确定程度减少了多少就是信息的增益。