傳統機器學習優缺點

2023-04-24 20:53:06

判斷算法優劣時，可從以下幾點思考：

訓練樣本的數量
特征空間的維數
特征獨立與否？
模型是否是線性可分？
過拟合現象？
速度、性能、記憶體

logistic回歸的優缺點

優點：

容易實作，且易于解釋（輸出結果為機率）
計算速度快，記憶體占用少
lr的輸出類型是一個與樣本相關機率清單，我們任意設定門檻值，進而得到我們想要的分類結果；
LR對資料中的小噪音的魯棒性很好，并且輕微的多重共線性不會對其結果産生特别的影響。嚴重的多重共線性可以使用LR+L2正則來解決。

缺點：

當訓練樣本量大時，性能不好，同時容易發生欠拟合現象；
傳統的LR是線性二分類器，隻能處理二分類問題；
對于非線性特征，需要進行轉換；

SVM的優缺點

優點：

相比較LR，其能解決非線性問題；
SVM 的最終決策函數隻由少數的支援向量所确定,計算的複雜性取決于支援向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”，也就是相對能解決高維問題；
SVM是最好的現成的分類器（現成是指不加修改可直接使用），并且能夠得到較低的錯誤率；

缺點：

SVM算法對大資料訓練樣本難以實施（需要求解m階矩陣的運算，m是樣本數）
SVM解決多分類問題存在困難
解決非線性問題時，無通用方法，需要謹慎選擇核函數

決策樹的優缺點

優點：

結果易于了解，可解釋性強；
相比較于LR隻能處理二值型特征，決策樹可以處理連續性特征、資料型特征；
運作速度快；

缺點：

不支援線上學習（有新樣本就要重新訓練）
容易過拟合
忽略資料集中屬性之間的相關性；
資料有缺失時處理困難；

樸素貝葉斯的優缺點

優點：

生成式模型，通過計算機率來進行分類（高偏差/低方差模型），對小資料适應良好适合增量式訓練；
預測速度快

缺點：

對輸入資料的表達形式很敏感
需要特征條件獨立；

DBSCAN的優缺點

優點：

聚類速度快；
基于密度定義，能夠有效處理噪聲點
和k-means方法比，沒有超參數，不需要事先定義簇的個數；
聚類簇形狀沒有偏倚，可以發現任何形狀的簇

基于密度定義，相對抗噪音，能處理任意形狀和大小的簇

缺點：

當空間聚類的密度不均勻、聚類間距差相差很大時，聚類品質較差，因為這種情況下參數MinPts和Eps選取困難。
在高維空間，密度的定義是個問題；

面試知識點

上一篇: 【愚公系列】2022年01月 Django商城項目02-Mysql的配置一、建立資料庫二、資料遷移

下一篇: 解讀Android 4.0

繼續閱讀