天天看點

随機森林筆記随機森林

随機森林

顧名思義,是用随機的方式建立一個森林,森林裡面有很多的決策樹組成,随機森林的每一棵決策樹之間是沒有關聯的

随機森林的優點

  • 能夠處理很高次元的資料,并且不用做特征選擇
  • 在訓練完後,它能夠給出哪些feature比較重要
  • 在建立随機森林的時候,對generlization error使用的是無偏估計
  • 訓練速度快
  • 在訓練過程中,能夠檢測到feature間的互相影響
  • 容易做成并行化方法
  • 實作比較簡單

随機森林的缺點

  • 随機森林已經被證明在某些噪音較大的分類或回歸問題上會過拟
  • 對于有不同級别的屬性的資料,級别劃分較多的屬性會對随機森林産生更大的影響,是以随機森林在這種資料上産出的屬性權值是不可信的。

随機森林建構過程

(1)、設輸入樣本為N個,對樣本有放回重複進行N次采樣,得N個樣本,即bootstrap采樣。
比如:X={ X0,X1,X2,X3,X4,X5 },可能采到的樣本是:{ X0,X0,X1,X2,X3,X4 }.

(2)、從M 個feature中,選擇m個(m << M)。之後就是對采樣之後的資料使用完全分裂的方式建立出決策樹,這樣決策樹的某一個葉子節點要麼是無法繼續分裂的,要麼裡面的所有樣本的都是指向的同一 個分類。

(3)、重複1,2步直到滿足條件。由于之前的兩個随機采樣的過程保證了随機性,是以就算不剪枝,也不會出現over-fitting。這裡有兩個參數一個是決策樹的個數,一個是m的大小,m一般去取 M−−√2

判别過程

當有一個新的輸 入資料進入的時候,就讓森林中的每一棵決策樹分别進行一下判斷,看看這個資料應該屬于哪一類(對于分類算法),然後看看哪一類被選擇最多,就預測這個資料為那一類。

繼續閱讀