天天看點

10.SVM的優缺點

SVM有如下主要幾個特點: 

(1)非線性映射是SVM方法的理論基礎,SVM利用内積核函數代替向高維空間的非線性映射; 

(2)對特征空間劃分的最優超平面是SVM的目标,最大化分類邊際的思想是SVM方法的核心; 

(3)支援向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支援向量;

(4)SVM 是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及機率測度及大數定律等,是以不同于現有的統計方法。從本質上看,它避開了從歸納到演繹的傳統過程,實作了高效的從訓練樣本到預報樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題; 

(5)SVM 的最終決策函數隻由少數的支援向量所确定,計算的複雜性取決于支援向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”。 

(6)少數支援向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、“剔除”大量備援樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。

這種“魯棒”性主要展現在: 

①增、删非支援向量樣本對模型沒有影響; 

②支援向量樣本集具有一定的魯棒性; 

③有些成功的應用中,SVM 方法對核的選取不敏感 

兩個不足: 

(1)    SVM算法對大規模訓練樣本難以實施,由于SVM是借助二次規劃來求解支援向量,而求解二次規劃将涉及m階矩陣的計算(m為樣本的個數),當m數目很大時該矩陣的存儲和計算将耗費大量的機器記憶體和運算時間。

針對以上問題的主要改進有

J.Platt的SMO算法、

T.Joachims的SVM、

C.J.C.Burges等的PCGC、

張學工的CSVM

O.L.Mangasarian等的SOR算法 

(2) 用SVM解決多分類問題存在困難 

經典的支援向量機算法隻給出了二類分類的算法,而在資料挖掘的實際應用中,一般要解決多類的分類問題。

可以通過多個二類支援向量機的組合來解決。主要有:

一對多組合模式、一對一組合模式和SVM決策樹;

通過構造多個分類器的組合來解決。

主要原理是克服SVM固有的缺點,結合其他算法的優勢,解決多類問題的分類精度。

如:

與粗集理論結合,形成一種優勢互補的多類問題的組合分類器。