天天看点

信息论基本

一件事情发生了,其信息量与该事件发生的概率相关

越不可能发生的事情发生了,其信息量就越大

信息量满足以下三点

  1. 非常可能发生的事情信息量较少
  2. 较不可能发生的事情信息量大
  3. 独立事件其信息量与执行的次数相关。例如抛硬币,抛两次,其信息量是抛一次的两倍

定义:信息量

I(x) = -logP(x)
           

P(x)区间位于0-1之间,信息量的单位是奈特(nats)一奈特是以1/e的概率观测到一个事件时获得的信息量

定义:信息熵

信息熵是所有信息量的期望,度量随机变量的不确定性,即

H(x) = - \sum^n_{i=1}P(x_i)*log(P(x_i))
           

定义:联合熵

对于多维随机变量,信息熵被称之为联合熵

H(X,Y)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(x_i,y_j))
           

定义:条件熵

条件熵表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。

H(Y|X)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(y_j|x_i))
           

根据条件概率可得

H(X,Y)=H(Y|X)+H(X)
           

定义:互信息

I(X;Y)=H(X)-H(X|Y)
           
I(X;Y)=H(Y)-H(Y|X)
           

联合熵,条件熵,互信息的关系如图

信息论基本

定义:条件互信息

可以理解的是条件互信息是摒弃H(Z)的互信息

信息论基本

定义:相对熵(KL散度)

KL散度是用来度量两个概率分布P和Q之间的差距。通常P为真实分布,Q为近似分布,但是相对熵不具有对称性,

$D_{KL}(p||q)$

$D_{KL}(q||p)$

并不一定相等

D_{KL}(p||q)=\sum_{i=1}^nP(x_i)*log\frac{P(x_i)}{Q(x_i)}=-\sum_{i=1}^nP(x_i)log(Q(x_i))-H(P(x))
           

定义:交叉熵

交叉熵用于度量两个概率分布间的差异性信息。

H(p,q)=-\sum_{i=1}^nP(x_i)log(Q(x_i))
           

可以看出,交叉熵就是相对熵分解后的前一段

继续阅读