天天看點

資訊熵與資訊增益

資訊熵(information entropy)是度量樣本集合純度/不确定度最常用的名額之一。

但要注意,資訊熵越小,表示不确定度越低,确定度越高,純度越高。

資訊熵是對資訊量的度量。越小機率的事情發生所産生的資訊量越大。

資訊量的公式表示如下:

由于機率範圍為0-1,是以log2p(x)的範圍在負無窮到0,而負号則讓資訊量變成正數。正好可以得出,一件事情發生的機率越小,資訊量越大。

而資訊熵則代表了多件不相關的事件發生所産生的資訊量之和。

資訊增益(information gain) 代表的是在一個條件下,資訊複雜度(不确定性)減少的程度,也即純度提高的程度。

資訊增益越大,表示資訊的不确定度降低的越多,即資訊的純度越高。

繼續閱讀