一件事情发生了,其信息量与该事件发生的概率相关
越不可能发生的事情发生了,其信息量就越大
信息量满足以下三点
- 非常可能发生的事情信息量较少
- 较不可能发生的事情信息量大
- 独立事件其信息量与执行的次数相关。例如抛硬币,抛两次,其信息量是抛一次的两倍
定义:信息量
I(x) = -logP(x)
P(x)区间位于0-1之间,信息量的单位是奈特(nats)一奈特是以1/e的概率观测到一个事件时获得的信息量
定义:信息熵
信息熵是所有信息量的期望,度量随机变量的不确定性,即
H(x) = - \sum^n_{i=1}P(x_i)*log(P(x_i))
定义:联合熵
对于多维随机变量,信息熵被称之为联合熵
H(X,Y)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(x_i,y_j))
定义:条件熵
条件熵表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。
H(Y|X)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(y_j|x_i))
根据条件概率可得
H(X,Y)=H(Y|X)+H(X)
定义:互信息
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(Y)-H(Y|X)
联合熵,条件熵,互信息的关系如图
定义:条件互信息
可以理解的是条件互信息是摒弃H(Z)的互信息
定义:相对熵(KL散度)
KL散度是用来度量两个概率分布P和Q之间的差距。通常P为真实分布,Q为近似分布,但是相对熵不具有对称性,
$D_{KL}(p||q)$
和
$D_{KL}(q||p)$
并不一定相等
D_{KL}(p||q)=\sum_{i=1}^nP(x_i)*log\frac{P(x_i)}{Q(x_i)}=-\sum_{i=1}^nP(x_i)log(Q(x_i))-H(P(x))
定义:交叉熵
交叉熵用于度量两个概率分布间的差异性信息。
H(p,q)=-\sum_{i=1}^nP(x_i)log(Q(x_i))
可以看出,交叉熵就是相对熵分解后的前一段