資訊熵(information entropy)是度量樣本集合純度/不确定度最常用的名額之一。
但要注意,資訊熵越小,表示不确定度越低,确定度越高,純度越高。
資訊熵是對資訊量的度量。越小機率的事情發生所産生的資訊量越大。
資訊量的公式表示如下:
由于機率範圍為0-1,是以log2p(x)的範圍在負無窮到0,而負号則讓資訊量變成正數。正好可以得出,一件事情發生的機率越小,資訊量越大。
而資訊熵則代表了多件不相關的事件發生所産生的資訊量之和。
資訊增益(information gain) 代表的是在一個條件下,資訊複雜度(不确定性)減少的程度,也即純度提高的程度。
資訊增益越大,表示資訊的不确定度降低的越多,即資訊的純度越高。