資訊論複習筆記（1）：資訊熵、條件熵，聯合熵，互資訊、交叉熵，相對熵

2023-06-23 04:07:39

文章目錄

- - 1.1 資訊和資訊的測量
  - - - 1.1.1 什麼是資訊
      - 1.1.1 資訊怎麼表示
  - 1.2 資訊熵
  - 1.3 條件熵和聯合熵
  - - The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)
  - 1.4 互資訊
  - 1.5 相對熵和交叉熵

1.1 資訊和資訊的測量

1.1.1 什麼是資訊

資訊是對接收者來說是一種不确切的知識，可以認為是一種不确定性的度量。比如下面的例子，假設随機變量 X= ‘出生年份’：

1) I will be one year older next year. ----> No information
2) I was born in 1993.  ----> little information
3) I was born in 1990s. ---->More information

可見，資訊量與随機變量可能值的數量相關。随機變量能取到的值越多，代表事件的不确定度越大，包含的資訊越多。不确定度越大，資訊量越多

1.1.1 資訊怎麼表示

例如，一個班有30個學生，我們要用一個二進制序列區分他們，需要多少bits？

l o g 2 30 = 4.907 b i t s log_2 30 = 4.907 bits log230=4.907bits

是以至少需要5個bits才能代表每個學生

1.2 資訊熵

在通信系統中，資訊熵用來表示平均每符号攜帶多少比特（bit）資訊，資訊熵的機關是 bit/symbol(比特每符号)。其背景如下：

我們需要把一個信源符号，轉化成一個0-1的二進制比特形式，那麼需要多少個二進制比特位，才能表達這個通信符号的所有資訊呢？

上文說到，資訊代表不确定性，與事件的機率相關。那麼假設一個信源有5種可能的符号，記為 x 1 , x 2 , x 3 , x 4 , x 5 x_1,x_2,x_3,x_4,x_5 x1,x2,x3,x4,x5, 并且每個符号出現的機率分别為 P ( x 1 ) , P ( x 2 ) , P ( x 3 ) , P ( x 4 ) , P ( x 5 ) P(x_1), P(x_2),P(x_3),P(x_4),P(x_5) P(x1),P(x2),P(x3),P(x4),P(x5),

是以熵(平均每比特攜帶的資訊量)為：

H ( X ) = E [ l o g 2 P ( X ) − 1 ] = ∑ i = 1 5 P ( x i ) ∗ l o g 2 P ( x i ) − 1 H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i=1}^{5}P(x_i) *log_2P(x_i)^{-1} H(X)=E[log2P(X)−1]=∑i=15P(xi)∗log2P(xi)−1

1.3 條件熵和聯合熵

聯合熵上與聯合分布相關。聯合熵表示為：

H ( X , Y ) = − ∑ x ϵ X ∑ y ϵ Y P ( X , Y ) l o g 2 P ( X , Y ) H(X,Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X,Y) H(X,Y)=−∑xϵX∑yϵYP(X,Y)log2P(X,Y)

條件熵上與條件分布及聯合分布相關。條件熵表示為：

H ( X ∣ Y ) = − ∑ x ϵ X ∑ y ϵ Y P ( X , Y ) l o g 2 P ( X ∣ Y ) H(X|Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X|Y) H(X∣Y)=−∑xϵX∑yϵYP(X,Y)log2P(X∣Y)

The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)

鍊式法則：

H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y ) = H(X|Y ) + H(Y) = H(X) + H(Y|X) H(X,Y)=H(X∣Y)+H(Y)=H(X)+H(Y∣X)

1.4 互資訊

互資訊為熵減去條件熵。

I ( X , Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) − H ( X ∣ Y ) I(X,Y ) = H(Y) - H(Y|X ) = H(X) - H(X|Y) I(X,Y)=H(Y)−H(Y∣X)=H(X)−H(X∣Y)

互資訊為熵的和減去聯合熵

I ( X , Y ) = H ( Y ) + H ( X ) − H ( X , Y ) I(X,Y ) = H(Y) + H(X ) - H(X,Y) I(X,Y)=H(Y)+H(X)−H(X,Y)

上訴過程可以用圖加深了解：

資訊論複習筆記（1）：資訊熵、條件熵，聯合熵，互資訊、交叉熵，相對熵

通俗了解：一個變量A對變量B不确定性的削弱程度。

互資訊是指是兩個随機變量之間的關聯程度，即給定一個随機變量後，另一個随機變量不确定性的削弱程度，因而互資訊取值最小為0，意味着給定一個随機變量對确定一另一個随機變量沒有關系，最大取值為随機變量的熵，意味着給定一個随機變量，能完全消除另一個随機變量的不确定性。

互資訊新詞發現

左右熵

某詞出現的情況下，其左邊詞和右邊詞的搭配越豐富，效果越好。

互資訊，

1.5 相對熵和交叉熵

相對熵和交叉熵

資訊論複習筆記（1）：資訊熵、條件熵，聯合熵，互資訊、交叉熵，相對熵

文章目錄

1.1 資訊和資訊的測量

1.1.1 什麼是資訊

1.1.1 資訊怎麼表示

1.2 資訊熵

1.3 條件熵和聯合熵

The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)

1.4 互資訊

1.5 相對熵和交叉熵

繼續閱讀

相關性分析名額-Pearson，Spearman，Kendall，Multual informationPearson’s Correlation CoefficientSpearman’s Rank CorrelationKendallMutual information對比參考資料

機器學習筆記_決策樹一、決策樹簡介二、資訊熵的概念（entropy）三、構造決策樹（結合簡單案例）四、決策樹的過拟合問題以及剪枝政策

關于決策樹的資訊增益（資訊熵）1.前言2.資訊增益3.增益率4.基尼系數

機器學習 - [源碼實作決策樹小專題]決策樹中混雜度數值度量的Python程式設計實作（資訊熵和基尼系數的計算）1.資訊熵（entropy）2.基尼系數小結

【機器學習】決策樹特征選擇準則資訊增益、資訊增益率、基尼系數的計算及其python實作1.問題引入2.資訊增益3.資訊增益率4.基尼系數5.參考文獻6.python代碼

JupyterNotebook更改預設存儲路徑

【H264/AVC 句法和語義詳解】(五)：Exp-Golomb指數哥倫布編碼（理論篇）

交叉熵損失函數原理詳解交叉熵損失函數原理詳解

一文讀懂-交叉熵損失函數交叉熵損失函數原理詳解（轉載）

交叉熵和損失函數的了解

交叉熵損失函數整理一.交叉熵函數的由來(推導)二.交叉熵函數直覺了解三.交叉熵的兩種不同形式四.交叉熵函數求導六.優缺點七.為什麼邏輯回歸不用MSE而用交叉熵

tensorflow交叉熵損失函數

sigmoid、softmax和交叉熵損失函數

了解交叉熵損失函數

交叉熵損失函數的了解

tf.nn.softmax_cross_entropy_with_logits函數