天天看點

libsvm分類總結

以前對于libsvm的應用主要當它是個機器學習的工具,單純的當一個現成的分類器使用,主要研究的是如何選擇合适的分類特征和做分類訓練資料,對于參數的基本了解,但很少改動由于官方網站上也推薦文本分類使用線性分類,當初做文本分類精力完全在特征和樣本篩選上了,最近由于樣本和特征的稀疏資料分類問題,又一次在各種核函數和參數上下功夫妄求提升分類準确率,在此總結記錄以防以後又忘記了

c g兩個參數不用說了 這個完全靠測試沒什麼可說的

w參數很重要 在不同分類樣本不均衡時 需要依賴此參數對對應的分類進行懲罰值調整 比如分類1有20個樣本 而另一個分類2有200個樣本 分類1的w設定1的話 另一個分類2的w最好設定10 也就是正好是大志的倍數關系來均衡下樣本數量差異導緻的分類效果差(不是二分問題 效果不好 就算把所有分類都設定了w 也還是容易出現占比例大的分類樣本比較容易出現的問題 )

核函數 目前來說線性和多項式在文本分類和我這次純數學統計機率分類情況下 都在同樣參數和樣本 測試集情況下高于其他核

RBF隻适用預設參數值和設定參數值差别很大,這次的多分類問題,g的影響非常大,詳細的各個參數在SVM計算中的數學意義參考相關資料 這裡隻是記錄個人實驗心得

未完下回編輯再續