天天看點

資訊論複習筆記(1):資訊熵、條件熵,聯合熵,互資訊、交叉熵,相對熵

文章目錄

      • 1.1 資訊和資訊的測量
          • 1.1.1 什麼是資訊
          • 1.1.1 資訊怎麼表示
      • 1.2 資訊熵
      • 1.3 條件熵和聯合熵
        • The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)
      • 1.4 互資訊
      • 1.5 相對熵和交叉熵

1.1 資訊和資訊的測量

1.1.1 什麼是資訊

資訊是對接收者來說是一種不确切的知識,可以認為是一種不确定性的度量。比如下面的例子,假設随機變量 X= ‘出生年份’:

1) I will be one year older next year. ----> No information
2) I was born in 1993.  ----> little information
3) I was born in 1990s. ---->More information
           

可見,資訊量與随機變量可能值的數量相關。随機變量能取到的值越多,代表事件的不确定度越大,包含的資訊越多。不确定度越大,資訊量越多

1.1.1 資訊怎麼表示

例如,一個班有30個學生,我們要用一個二進制序列區分他們,需要多少bits?

l o g 2 30 = 4.907 b i t s log_2 30 = 4.907 bits log2​30=4.907bits

是以至少需要5個bits才能代表每個學生

1.2 資訊熵

在通信系統中,資訊熵用來表示平均每符号攜帶多少比特(bit)資訊,資訊熵的機關是 bit/symbol(比特每符号)。其背景如下:

我們需要把一個信源符号,轉化成一個0-1的二進制比特形式,那麼需要多少個二進制比特位,才能表達這個通信符号的所有資訊呢?

上文說到,資訊代表不确定性,與事件的機率相關。那麼假設一個信源有5種可能的符号,記為 x 1 , x 2 , x 3 , x 4 , x 5 x_1,x_2,x_3,x_4,x_5 x1​,x2​,x3​,x4​,x5​, 并且每個符号出現的機率分别為 P ( x 1 ) , P ( x 2 ) , P ( x 3 ) , P ( x 4 ) , P ( x 5 ) P(x_1), P(x_2),P(x_3),P(x_4),P(x_5) P(x1​),P(x2​),P(x3​),P(x4​),P(x5​),

是以熵(平均每比特攜帶的資訊量)為:

H ( X ) = E [ l o g 2 P ( X ) − 1 ] = ∑ i = 1 5 P ( x i ) ∗ l o g 2 P ( x i ) − 1 H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i=1}^{5}P(x_i) *log_2P(x_i)^{-1} H(X)=E[log2​P(X)−1]=∑i=15​P(xi​)∗log2​P(xi​)−1

1.3 條件熵和聯合熵

聯合熵上與聯合分布相關。聯合熵表示為:

H ( X , Y ) = − ∑ x ϵ X ∑ y ϵ Y P ( X , Y ) l o g 2 P ( X , Y ) H(X,Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X,Y) H(X,Y)=−∑xϵX​∑yϵY​P(X,Y)log2​P(X,Y)

條件熵上與條件分布及聯合分布相關。條件熵表示為:

H ( X ∣ Y ) = − ∑ x ϵ X ∑ y ϵ Y P ( X , Y ) l o g 2 P ( X ∣ Y ) H(X|Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X|Y) H(X∣Y)=−∑xϵX​∑yϵY​P(X,Y)log2​P(X∣Y)

The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)

鍊式法則:

H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y ) = H(X|Y ) + H(Y) = H(X) + H(Y|X) H(X,Y)=H(X∣Y)+H(Y)=H(X)+H(Y∣X)

1.4 互資訊

互資訊為熵減去條件熵。

I ( X , Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) − H ( X ∣ Y ) I(X,Y ) = H(Y) - H(Y|X ) = H(X) - H(X|Y) I(X,Y)=H(Y)−H(Y∣X)=H(X)−H(X∣Y)

互資訊為 熵 的和減去 聯合熵

I ( X , Y ) = H ( Y ) + H ( X ) − H ( X , Y ) I(X,Y ) = H(Y) + H(X ) - H(X,Y) I(X,Y)=H(Y)+H(X)−H(X,Y)

上訴過程可以用圖加深了解:

資訊論複習筆記(1):資訊熵、條件熵,聯合熵,互資訊、交叉熵,相對熵

通俗了解:一個變量A對變量B不确定性的削弱程度。

互資訊是指是兩個随機變量之間的關聯程度,即給定一個随機變量後,另一個随機變量不确定性的削弱程度,因而互資訊取值最小為0,意味着給定一個随機變量對确定一另一個随機變量沒有關系,最大取值為随機變量的熵,意味着給定一個随機變量,能完全消除另一個随機變量的不确定性。

互資訊新詞發現

左右熵

某詞出現的情況下,其左邊詞和右邊詞的搭配越豐富,效果越好。

互資訊,

1.5 相對熵和交叉熵

相對熵和交叉熵

繼續閱讀