天天看点

信息熵与信息增益

信息熵(information entropy)是度量样本集合纯度/不确定度最常用的指标之一。

但要注意,信息熵越小,表示不确定度越低,确定度越高,纯度越高。

信息熵是对信息量的度量。越小概率的事情发生所产生的信息量越大。

信息量的公式表示如下:

由于概率范围为0-1,因此log2p(x)的范围在负无穷到0,而负号则让信息量变成正数。正好可以得出,一件事情发生的概率越小,信息量越大。

而信息熵则代表了多件不相关的事件发生所产生的信息量之和。

信息增益(information gain) 代表的是在一个条件下,信息复杂度(不确定性)减少的程度,也即纯度提高的程度。

信息增益越大,表示信息的不确定度降低的越多,即信息的纯度越高。

继续阅读