天天看點

資訊論基本

一件事情發生了,其資訊量與該事件發生的機率相關

越不可能發生的事情發生了,其資訊量就越大

資訊量滿足以下三點

  1. 非常可能發生的事情資訊量較少
  2. 較不可能發生的事情資訊量大
  3. 獨立事件其資訊量與執行的次數相關。例如抛硬币,抛兩次,其資訊量是抛一次的兩倍

定義:資訊量

I(x) = -logP(x)
           

P(x)區間位于0-1之間,資訊量的機關是奈特(nats)一奈特是以1/e的機率觀測到一個事件時獲得的資訊量

定義:資訊熵

資訊熵是所有資訊量的期望,度量随機變量的不确定性,即

H(x) = - \sum^n_{i=1}P(x_i)*log(P(x_i))
           

定義:聯合熵

對于多元随機變量,資訊熵被稱之為聯合熵

H(X,Y)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(x_i,y_j))
           

定義:條件熵

條件熵表示在已知随機變量 X 的條件下随機變量 Y 的不确定性。

H(Y|X)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(y_j|x_i))
           

根據條件機率可得

H(X,Y)=H(Y|X)+H(X)
           

定義:互資訊

I(X;Y)=H(X)-H(X|Y)
           
I(X;Y)=H(Y)-H(Y|X)
           

聯合熵,條件熵,互資訊的關系如圖

資訊論基本

定義:條件互資訊

可以了解的是條件互資訊是摒棄H(Z)的互資訊

資訊論基本

定義:相對熵(KL散度)

KL散度是用來度量兩個機率分布P和Q之間的差距。通常P為真實分布,Q為近似分布,但是相對熵不具有對稱性,

$D_{KL}(p||q)$

$D_{KL}(q||p)$

并不一定相等

D_{KL}(p||q)=\sum_{i=1}^nP(x_i)*log\frac{P(x_i)}{Q(x_i)}=-\sum_{i=1}^nP(x_i)log(Q(x_i))-H(P(x))
           

定義:交叉熵

交叉熵用于度量兩個機率分布間的差異性資訊。

H(p,q)=-\sum_{i=1}^nP(x_i)log(Q(x_i))
           

可以看出,交叉熵就是相對熵分解後的前一段

繼續閱讀