天天看點

資訊熵--決策樹的建立算法ID3中使用

轉http://baike.baidu.com/view/401605.htm

1948 年,香農提出了“資訊熵”(shāng) 的概念,解決了 對資訊的量化度量 問題。

   什麼是資訊?

  資訊現代定義 。[2006年,醫學資訊(雜志),鄧宇等].

  資訊是 物質、能量、資訊及其屬性的标示 。 逆維 納資訊定義

  資訊是 确定性的增加 。 逆香農 資訊定義

  資訊是 事物現象及其屬性辨別 的集合。2002年

   《博弈聖經》中的資訊熵:

  資訊熵:資訊的基本作用就是 消除人們對事物的不确定性 。多數粒子組合之後,在它似像非像的形态上押上有價值的數位,具體地說,這就是一個在博弈對局中現象資訊的混亂。

  香農指出,它的準确資訊量應該是 

   = -(p1*log p1 + p2 * log p2 + ... +p32 *log p32) ,

  其中,p1,p2 , ...,p32 分别是這 32 個球隊奪冠的機率。香農把它稱為“資訊熵” (Entropy),一般用符号 H 表示,機關是比特。有興趣的讀者可以推算一下當 32 個球隊奪冠機率相同時,對應的資訊熵等于五比特。有數學基礎的讀者還可以證明上面公式的值不可能大于五。對于任意一個随機變量 X(比如得冠軍的球隊),它的熵定義如下:

   變量的不确定性越大,熵也就越大,把它搞清楚所需要的資訊量也就越大 。 

  資訊熵是資訊論中用于 度量資訊量 的一個概念。 一個系統越是有序,資訊熵就越低 ;

  反之, 一個系統越是混亂,資訊熵就越高 。是以,資訊熵也可以說是 系統有序化程度 的一個度量。

  熵的概念源自熱實體學.假定有兩種氣體a、b,當兩種氣體完全混合時,可以達到熱實體學中的穩 定狀态,此時熵最高。如果要實作反向過程,即将a、b完全分離,在封閉的系統中是沒有可能的。隻有外部幹預(資訊),也即系統外部加入某種有序化的東西 (能量),使得a、b分離。這時,系統進入另一種穩定狀态,此時,資訊熵最低。熱實體學證明,在一個封閉的系統中,熵總是增大,直至最大。若使系統的熵減 少(使系統更加有序化),必須有外部能量的幹預。

  資訊理論的鼻祖之一Claude E. Shannon把 資訊(熵)定義為離散随機事件的出現機率 。所謂資訊熵,是一個數學上頗為抽象的概念,在這裡不妨把資訊熵了解成某種特定資訊的出現機率。 而資訊熵和熱力學熵是緊密相關的。根據Charles H. Bennett對Maxwell's Demon的重新解釋,對資訊的銷毀是一個不可逆過程,是以銷毀資訊是符合熱力學第二定律的。而産生資訊,則是為系統引入負(熱力學)熵的過程。是以資訊 熵的符号與熱力學熵應該是相反的。一般而言, 當一種資訊出現機率更高的時候,表明它被傳播得更廣泛,或者說,被引用的程度更高。 我們可以認為,從資訊傳播 的角度來看,資訊熵可以表示資訊的價值。這樣子我們就有一個衡量資訊價值高低的标準,可以做出關于知識流通問題的更多推論。 

  資訊熵的計算是非常複雜的。而具有多重前置條件的資訊,更是幾乎不能計算的。是以在現實世界中 資訊的價值大多是不能被計算出來的。但因為資訊熵和熱力學熵的緊密相關性,是以資訊熵是可以在衰減的過程中被測定出來的。是以資訊的價值是通過資訊的傳遞 展現出來的。在沒有引入附加價值(負熵)的情況下,傳播得越廣、流傳時間越長的資訊越有價值。

  熵首先是實體學裡的名詞. 在傳播中是指資訊的不确定性,一則高資訊度的資訊熵是很低的,低資訊度的熵則高。 具體說來,凡是導緻随機事件集合的肯定性, 組織性 ,法則性或有序性等增加或減少的活動過程,都可以用資訊熵的改變量這個統一的标尺來度量。

繼續閱讀