天天看點

傳統機器學習優缺點

判斷算法優劣時,可從以下幾點思考:

  1. 訓練樣本的數量
  2. 特征空間的維數
  3. 特征獨立與否?
  4. 模型是否是線性可分?
  5. 過拟合現象?
  6. 速度、性能、記憶體

logistic回歸的優缺點

優點:

  1. 容易實作,且易于解釋(輸出結果為機率)
  2. 計算速度快,記憶體占用少
  3. lr的輸出類型是一個與樣本相關機率清單,我們任意設定門檻值,進而得到我們想要的分類結果;
  4. LR對資料中的小噪音的魯棒性很好,并且輕微的多重共線性不會對其結果産生特别的影響。嚴重的多重共線性可以使用LR+L2正則來解決。

缺點:

  1. 當訓練樣本量大時,性能不好,同時容易發生欠拟合現象;
  2. 傳統的LR是線性二分類器,隻能處理二分類問題;
  3. 對于非線性特征,需要進行轉換;

SVM的優缺點

優點:

  1. 相比較LR,其能解決非線性問題;
  2. SVM 的最終決策函數隻由少數的支援向量所确定,計算的複雜性取決于支援向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”,也就是相對能解決高維問題;
  3. SVM是最好的現成的分類器(現成是指不加修改可直接使用),并且能夠得到較低的錯誤率;

缺點:

  1. SVM算法對大資料訓練樣本難以實施(需要求解m階矩陣的運算,m是樣本數)
  2. SVM解決多分類問題存在困難
  3. 解決非線性問題時,無通用方法,需要謹慎選擇核函數

決策樹的優缺點

優點:

  1. 結果易于了解,可解釋性強;
  2. 相比較于LR隻能處理二值型特征,決策樹可以處理連續性特征、資料型特征;
  3. 運作速度快;

缺點:

  1. 不支援線上學習(有新樣本就要重新訓練)
  2. 容易過拟合
  3. 忽略資料集中屬性之間的相關性;
  4. 資料有缺失時處理困難;

樸素貝葉斯的優缺點

優點:

  1. 生成式模型,通過計算機率來進行分類(高偏差/低方差模型),對小資料适應良好适合增量式訓練;
  2. 預測速度快

缺點:

  1. 對輸入資料的表達形式很敏感
  2. 需要特征條件獨立;

DBSCAN的優缺點

優點:

  1. 聚類速度快;
  2. 基于密度定義,能夠有效處理噪聲點
  3. 和k-means方法比,沒有超參數,不需要事先定義簇的個數;
  4. 聚類簇形狀沒有偏倚,可以發現任何形狀的簇

基于密度定義,相對抗噪音,能處理任意形狀和大小的簇

缺點:

  1. 當空間聚類的密度不均勻、聚類間距差相差很大時,聚類品質較差,因為這種情況下參數MinPts和Eps選取困難。
  2. 在高維空間,密度的定義是個問題;

繼續閱讀