天天看點

互資訊(Mutual Information)

  本文根據以下參考資料進行整理:

  1.維基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF

  2.新浪部落格:http://blog.sina.com.cn/s/blog_6255d20d0100ex51.html

  在機率論和資訊論中,兩個随機變量的互資訊(Mutual Information,簡稱MI)或轉移資訊(transinformation)是變量間互相依賴性的量度。不同于相關系數,互資訊并不局限于實值随機變量,它更加一般且決定着聯合分布 p(X,Y) 和分解的邊緣分布的乘積 p(X)p(Y) 的相似程度。互資訊(Mutual Information)是度量兩個事件集合之間的相關性(mutual dependence)。互資訊是點間互資訊(PMI)的期望值。互資訊最常用的機關是bit。

1.互資訊的定義

  正式地,兩個離散随機變量 X 和 Y 的互資訊可以定義為:

互資訊(Mutual Information)

  其中 p(x,y) 是 X 和 Y 的聯合機率分布函數,而p(x)和p(y)分别是 X 和 Y 的邊緣機率分布函數。

  在連續随機變量的情形下,求和被替換成了二重定積分:

互資訊(Mutual Information)

  其中 p(x,y) 目前是 X 和 Y 的聯合機率密度函數,而p(x)和p(y)分别是 X 和 Y 的邊緣機率密度函數。

  互資訊量I(xi;yj)在聯合機率空間P(XY)中的統計平均值。 平均互資訊I(X;Y)克服了互資訊量I(xi;yj)的随機性,成為一個确定的量。如果對數以 2 為基底,互資訊的機關是bit。

  直覺上,互資訊度量 X 和 Y 共享的資訊:它度量知道這兩個變量其中一個,對另一個不确定度減少的程度。例如,如果 X 和 Y 互相獨立,則知道 X 不對 Y 提供任何資訊,反之亦然,是以它們的互資訊為零。在另一個極端,如果 X 是 Y 的一個确定性函數,且 Y 也是 X 的一個确定性函數,那麼傳遞的所有資訊被 X 和 Y 共享:知道 X 決定 Y 的值,反之亦然。是以,在此情形互資訊與 Y(或 X)單獨包含的不确定度相同,稱作 Y(或 X)的熵。而且,這個互資訊與 X 的熵和 Y 的熵相同。(這種情形的一個非常特殊的情況是當 X 和 Y 為相同随機變量時。)

  互資訊是 X 和 Y 聯合分布相對于假定 X 和 Y 獨立情況下的聯合分布之間的内在依賴性。于是互資訊以下面方式度量依賴性:I(X; Y) = 0 當且僅當 X 和 Y 為獨立随機變量。從一個方向很容易看出:當 X 和 Y 獨立時,p(x,y) = p(x) p(y),是以:

互資訊(Mutual Information)

  此外,互資訊是非負的(即 I(X;Y) ≥ 0; 見下文),而且是對稱的(即 I(X;Y) = I(Y;X))。

2.平均互資訊量的實體含義

(1)觀察者站在輸出端

  H(X/Y) —信道疑義度/損失熵.。Y關于X的後驗不确定度。表示收到變量Y後,對随機變量X仍然存在的不确定度。代表了在信道中損失的資訊。

  H(X) —X的先驗不确定度/無條件熵。

  I(X;Y)—收到Y前後關于X的不确定度減少的量。從Y獲得的關于X的平均資訊量。

(2)觀察者站在輸入端

  H(Y/X)—噪聲熵。表示發出随機變量X後, 對随機變量Y仍然存在的平均不确定度。如果信道中不存在任何噪聲, 發送端和接收端必存在确定的對應關系, 發出X後必能确定對應的Y, 而現在不能完全确定對應的Y, 這顯然是由信道噪聲所引起的。

  I(Y;X) —發出X前後關于Y的先驗不确定度減少的量。

(3)觀察者站在通信系統總體立場上

  H(XY)—聯合熵.表示輸入随機變量X, 經信道傳輸到達信宿, 輸出随機變量Y。即收,發雙方通信後,整個系統仍然存在的不确定度.

  I(X;Y) —通信前後整個系統不确定度減少量。在通信前把X和Y看成兩個互相獨立的随機變量, 整個系統的先驗不确定度為X和Y的聯合熵H(X)+H(Y); 通信後把信道兩端出現X和Y看成是由信道的傳遞統計特性聯系起來的, 具有一定統計關聯關系的兩個随機變量, 這時整個系統的後驗不确定度由H(XY)描述。

  以上三種不同的角度說明: 從一個事件獲得另一個事件的平均互資訊需要消除不确定度,一旦消除了不确定度,就獲得了資訊。

3.平均互資訊量的性質

(1)對稱性

  I(X;Y)= I(Y;X)

  由Y提取到的關于X的資訊量與從X中提取到的關于Y的資訊量是一樣的。 I(X;Y)和 I(Y;X)隻是觀察者的立足點不同。

(2)非負性

  I(X;Y)≥0

  平均互資訊量不是從兩個具體消息出發, 而是從随機變量X和Y的整體角度出發, 并在平均意義上觀察問題, 是以平均互資訊量不會出現負值。或者說從一個事件提取關于另一個事件的資訊, 最壞的情況是0, 不會由于知道了一個事件,反而使另一個事件的不确定度增加。

(3)極值性

  I(X;Y)≤H(X)

  I(Y;X)≤H(Y)

  從一個事件提取關于另一個事件的資訊量, 至多是另一個事件的熵那麼多, 不會超過另一個事件自身所含的資訊量。當X和Y是一一對應關系時: I(X;Y)=H(X), 這時H(X/Y)=0。從一個事件可以充分獲得關于另一個事件的資訊, 從平均意義上來說, 代表信源的資訊量可全部通過信道。當X和Y互相獨立時: H(X/Y) =H(X), I(Y;X)=0。 從一個事件不能得到另一個事件的任何資訊,這等效于信道中斷的情況。

(4) 凸函數性

  平均互資訊量是p(xi)和p(yj /xi)的函數,即I(X;Y)=f [p(xi), p(yj /xi)];

  若固定信道,調整信源, 則平均互資訊量I(X;Y)是p(xi)的函數,即I(X;Y)=f [p(xi)];

  若固定信源,調整信道, 則平均互資訊量I(X;Y)是p(yj /xi)的函數,即I(X;Y)=f [p (yj /xi)]。

  平均互資訊量I(X;Y)是輸入信源機率分布p(xi)的上凸函數(concave function; or convext cap function)。

  平均互資訊量I(X;Y)是輸入轉移機率分布p(yj /xi)的下凸函數(convext function; or convext cup function)。

(5)資料處理定理

  串聯信道:在一些實際通信系統中, 常常出現串聯信道。例如微波中繼接力通信就是一種串聯信道。信宿收到資料後再進行資料處理, 資料處理系統可看成一種信道, 它與前面傳輸資料的信道構成串聯信道。

  資料處理定理:當消息經過多級處理後,随着處理器數目的增多,輸入消息與輸出消息之間的平均互資訊量趨于變小。即

  I(X;Z)≤I(X;Y)

  I(X;Z)≤I(Y;Z)

  其中假設Y條件下X和Z互相獨立。

  兩級串聯信道輸入與輸出消息之間的平均互資訊量既不會超過第Ⅰ級信道輸入與輸出消息之間的平均互資訊量,也不會超過第Ⅱ級信道輸入與輸出消息之間的平均互資訊量。

  當對信号/資料/消息進行多級處理時, 每處理一次, 就有可能損失一部分資訊, 也就是說資料處理會把信号/資料/消息變成更有用的形式, 但是絕不會創造出新的資訊。這就是所謂的資訊不增原理。

  當已用某種方式取得Y後, 不管怎樣對Y進行處理, 所獲得的資訊不會超過I(X;Y)。每處理一次, 隻會使資訊量減少, 至多不變。也就是說在任何資訊流通系統中, 最後獲得的資訊量,至多是信源提供的資訊。一旦在某一過程中丢失了一些資訊, 以後的系統不管怎樣處理, 如果不能接觸到丢失資訊的輸入端, 就不能再恢複已丢失的資訊。

4.與其他量的關系

  互資訊又可以等價地表示成

互資訊(Mutual Information)

  其中H(X)和H(Y) 是邊緣熵,H(X|Y)和H(Y|X)是條件熵,而H(X,Y)是X和Y的聯合熵。注意到這組關系和并集、差集和交集的關系類似,用Venn圖表示:

互資訊(Mutual Information)

  于是,在互資訊定義的基礎上使用琴生不等式,我們可以證明 I(X;Y) 是非負的,是以H(X)>=H(X|Y),這裡我們給出 I(X;Y) = H(Y) - H(Y|X) 的詳細推導:

互資訊(Mutual Information)

  上面其他性質的證明類似。

  直覺地說,如果把熵 H(Y) 看作一個随機變量不确定度的量度,那麼 H(Y|X) 就是 X 沒有涉及到的 Y 的部分的不确定度的量度。這就是“在 X 已知之後 Y 的剩餘不确定度的量”,于是第一個等式的右邊就可以讀作“Y的不确定度,減去在 X 已知之後 Y 的剩餘不确定度的量”,此式等價于“移除知道 X 後 Y 的不确定度的量”。這證明了互資訊的直覺意義為知道其中一個變量提供的另一個的資訊量(即不确定度的減少量)。

  注意到離散情形 H(X|X) = 0,于是 H(X) = I(X;X)。是以 I(X;X) ≥ I(X;Y),我們可以制定”一個變量至少包含其他任何變量可以提供的與它有關的資訊“的基本原理。

  互資訊也可以表示為兩個随機變量的邊緣分布 X 和 Y 的乘積 p(x) × p(y) 相對于随機變量的聯合熵 p(x,y) 的相對熵:

互資訊(Mutual Information)

  此外,令 p(x|y) = p(x, y) / p(y)。則

互資訊(Mutual Information)

  注意到,這裡相對熵涉及到僅對随機變量 X 積分,表達式 

互資訊(Mutual Information)

  現在以 Y 為變量。于是互資訊也可以了解為相對熵 X 的單變量分布 p(x) 相對于給定 Y 時 X 的條件分布 p(x|y) :分布 p(x|y) 和 p(x) 之間的平均差異越大,資訊增益越大。

繼續閱讀