天天看點

ID3與C4.5的差別

無論是網絡上還是任何一本入門級機器學習教材上面都對ID3和C4.5的内容進行了詳細的介紹。在此不多加贅述,隻簡單歸納下兩者之間的差別。嚴格說來,C4.5其實不是某一種特定的決策樹算法,而是針對ID3的缺陷進行改進的一系列算法。

1.C4.5可以處理連續性屬性,而ID3不可以。

2.ID3通過資訊增益來選擇屬性,而C4.5通過資訊增益率來選擇屬性,這樣就避免了ID3偏向選擇值多的那些屬性的缺陷。

3.C4.5可以處理缺少屬性值的訓練樣例,而ID3不可以。

4.C4.5支援規則後修剪,而ID3不支援。Decision Tree很容易Overfitting,剪枝能夠避免決策樹無限制增長,避免過度拟合訓練資料。C4.5支援規則後修剪。在這裡規則後修剪,又可分為兩種情況,一種是使用與訓練集不相交的驗證集,另外一種是不使用驗證集隻使用訓練集的悲觀估計(Pessimistic estimate)。

繼續閱讀