判斷算法優劣時,可從以下幾點思考:
- 訓練樣本的數量
- 特征空間的維數
- 特征獨立與否?
- 模型是否是線性可分?
- 過拟合現象?
- 速度、性能、記憶體
logistic回歸的優缺點
優點:
- 容易實作,且易于解釋(輸出結果為機率)
- 計算速度快,記憶體占用少
- lr的輸出類型是一個與樣本相關機率清單,我們任意設定門檻值,進而得到我們想要的分類結果;
- LR對資料中的小噪音的魯棒性很好,并且輕微的多重共線性不會對其結果産生特别的影響。嚴重的多重共線性可以使用LR+L2正則來解決。
缺點:
- 當訓練樣本量大時,性能不好,同時容易發生欠拟合現象;
- 傳統的LR是線性二分類器,隻能處理二分類問題;
- 對于非線性特征,需要進行轉換;
SVM的優缺點
優點:
- 相比較LR,其能解決非線性問題;
- SVM 的最終決策函數隻由少數的支援向量所确定,計算的複雜性取決于支援向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”,也就是相對能解決高維問題;
- SVM是最好的現成的分類器(現成是指不加修改可直接使用),并且能夠得到較低的錯誤率;
缺點:
- SVM算法對大資料訓練樣本難以實施(需要求解m階矩陣的運算,m是樣本數)
- SVM解決多分類問題存在困難
- 解決非線性問題時,無通用方法,需要謹慎選擇核函數
決策樹的優缺點
優點:
- 結果易于了解,可解釋性強;
- 相比較于LR隻能處理二值型特征,決策樹可以處理連續性特征、資料型特征;
- 運作速度快;
缺點:
- 不支援線上學習(有新樣本就要重新訓練)
- 容易過拟合
- 忽略資料集中屬性之間的相關性;
- 資料有缺失時處理困難;
樸素貝葉斯的優缺點
優點:
- 生成式模型,通過計算機率來進行分類(高偏差/低方差模型),對小資料适應良好适合增量式訓練;
- 預測速度快
缺點:
- 對輸入資料的表達形式很敏感
- 需要特征條件獨立;
DBSCAN的優缺點
優點:
- 聚類速度快;
- 基于密度定義,能夠有效處理噪聲點
- 和k-means方法比,沒有超參數,不需要事先定義簇的個數;
- 聚類簇形狀沒有偏倚,可以發現任何形狀的簇
基于密度定義,相對抗噪音,能處理任意形狀和大小的簇
缺點:
- 當空間聚類的密度不均勻、聚類間距差相差很大時,聚類品質較差,因為這種情況下參數MinPts和Eps選取困難。
- 在高維空間,密度的定義是個問題;