Machine Learning | 機器學習簡介
Machine Learning | (1) Scikit-learn與特征工程
Machine Learning | (2) sklearn資料集與機器學習組成
Machine Learning | (3) Scikit-learn的分類器算法-k-近鄰
Machine Learning | (4) Scikit-learn的分類器算法-邏輯回歸
Machine Learning | (5) Scikit-learn的分類器算法-樸素貝葉斯
Machine Learning | (6) Scikit-learn的分類器算法-性能評估
Machine Learning | (7) Scikit-learn的分類器算法-決策樹(Decision Tree)
Machine Learning | (8) Scikit-learn的分類器算法-随機森林(Random Forest)
決策樹(Decision Tree)
決策樹(Decision Tree)是一種基本的分類方法,當然也可以用于回歸。我們一般隻讨論用于分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基于特征對執行個體進行分類的過程,它可以認為是if-then規則的集合。在決策樹的結構中,每一個執行個體都被一條路徑或者一條規則所覆寫。通常決策樹學習包括三個步驟:特征選擇、決策樹的生成和決策樹的修剪
優點:計算複雜度不高,輸出結果易于了解,對中間值的缺失不敏感,可以處理邏輯回歸等不能解決的非線性特征資料
缺點:可能産生過度比對問題
适用資料類型:數值型和标稱型
特征選擇
特征選擇在于選取對訓練資料具有分類能力的特征。這樣可以提高決策樹學習的效率,如果利用一個特征進行分類的結果與随機分類的結果沒有很大差别,則稱這個特征是沒有分類能力的。經驗上扔掉這樣的特征對決策樹學習的京都影響不大。通常特征選擇的準則是資訊增益,這是個數學概念。
決策樹優缺點分析
決策樹的一些優點是:
簡單的了解和解釋。樹木可視化。
需要很少的資料準備。其他技術通常需要資料歸一化,需要建立虛拟變量,并删除空值。但請注意,此子產品不支援缺少值。
使用樹的成本(即,預測資料)在用于訓練樹的資料點的數量上是對數的。
決策樹的缺點包括:
決策樹學習者可以建立不能很好地推廣資料的過于複雜的樹。這被稱為過拟合。修剪(目前不支援)的機制,設定葉節點所需的最小采樣數或設定樹的最大深度是避免此問題的必要條件。
決策樹可能不穩定,因為資料的小變化可能會導緻完全不同的樹被生成。通過使用合奏中的決策樹來減輕這個問題。