天天看點

收藏!機器學習算法分類圖譜及其優缺點綜合分析

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

收藏!機器學習算法分類圖譜及其優缺點綜合分析

近日,Coggle對各類機器學習算法進行了歸納整理,形成了一個較為完整的機器學習算法分類圖譜,并對每一類算法的優缺點進行了分析。具體分類如下:

收藏!機器學習算法分類圖譜及其優缺點綜合分析
  • 正則化算法(Regularization Algorithms)
  • 內建算法(Ensemble Algorithms)
  • 決策樹算法(Decision Tree Algorithm)
  • 回歸(Regression)
  • 人工神經網絡(Artificial Neural Network)
  • 深度學習(Deep Learning)
  • 支援向量機(Support Vector Machine)
  • 降維算法(Dimensionality Reduction Algorithms)
  • 聚類算法(Clustering Algorithms)
  • 基于執行個體的算法(Instance-based Algorithms)
  • 貝葉斯算法(Bayesian Algorithms)
  • 關聯規則學習算法(Association Rule Learning Algorithms)
  • 圖模型(Graphical Models)
收藏!機器學習算法分類圖譜及其優缺點綜合分析

正則化算法是另一種方法(通常是回歸方法)的拓展,這種方法會基于模型複雜性對其進行懲罰,它喜歡相對簡單能夠更好的泛化的模型。

舉例:

  • 嶺回歸(Ridge Regression)
  • 最小絕對收縮與選擇算子(LASSO)
  • GLASSO
  • 彈性網絡(Elastic Net)
  • 最小角回歸(Least-Angle Regression)

    優點:

  • 其懲罰會減少過拟合
  • 總會有解決方法

    缺點:

  • 懲罰會造成欠拟合
  • 很難校準
    收藏!機器學習算法分類圖譜及其優缺點綜合分析

內建算法是由多個較弱的模型內建模型組,其中的模型可以單獨進行訓練,并且它們的預測能以某種方式結合起來去做出一個總體預測。該算法主要的問題是要找出哪些較弱的模型可以結合起來,以及結合的方法。這是一個非常強大的技術集,是以廣受歡迎。

  • Boosting
  • Bootstrapped Aggregation(Bagging)
  • AdaBoost
  • 層疊泛化(Stacked Generalization)(blending)
  • 梯度推進機(Gradient Boosting Machines,GBM)
  • 梯度提升回歸樹(Gradient Boosted Regression Trees,GBRT)
  • 随機森林(Random Forest)
  • 當先最先進的預測幾乎都使用了算法內建。它比使用單個模型預測出來的結果要精确的多
  • 需要大量的維護工作
收藏!機器學習算法分類圖譜及其優缺點綜合分析

決策樹算法使用一個決策樹作為一個預測模型,它将對一個 item(表征在分支上)觀察所得映射成關于該 item 的目标值的結論(表征在葉子中)。樹模型中的目标是可變的,可以采一組有限值,被稱為分類樹;在這些樹結構中,葉子表示類标簽,分支表示表征這些類标簽的連接配接的特征。

  • 分類和回歸樹(Classification and Regression Tree,CART)
  • Iterative Dichotomiser 3(ID3)
  • C4.5 和 C5.0(一種強大方法的兩個不同版本)
  • 容易解釋
  • 非參數型
  • 趨向過拟合
  • 可能或陷于局部最小值中
  • 沒有線上學習
收藏!機器學習算法分類圖譜及其優缺點綜合分析

回歸是用于估計兩種變量之間關系的統計過程。當用于分析因變量和一個 多個自變量之間的關系時,該算法能提供很多模組化和分析多個變量的技巧。具體一點說,回歸分析可以幫助我們了解當任意一個自變量變化,另一個自變量不變時,因變量變化的典型值。最常見的是,回歸分析能在給定自變量的條件下估計出因變量的條件期望。回歸算法是統計學中的主要算法,它已被納入統計機器學習。

  • 普通最小二乘回歸(Ordinary Least Squares Regression,OLSR)
  • 線性回歸(Linear Regression)
  • 邏輯回歸(Logistic Regression)
  • 逐漸回歸(Stepwise Regression)
  • 多元自适應回歸樣條(Multivariate Adaptive Regression Splines,MARS)
  • 本地散點平滑估計(Locally Estimated Scatterplot Smoothing,LOESS)
  • 直接、快速
  • 知名度高
  • 要求嚴格的假設
  • 需要處理異常值
收藏!機器學習算法分類圖譜及其優缺點綜合分析

人工神經網絡是受生物神經網絡啟發而建構的算法模型。它是一種模式比對,常被用于回歸和分類問題,但擁有龐大的子域,由數百種算法和各類問題的變體組成。

感覺器

反向傳播

Hopfield 網絡

徑向基函數網絡(Radial Basis Function Network,RBFN)

在語音、語義、視覺、各類遊戲(如圍棋)的任務中表現極好。

算法可以快速調整,适應新的問題。

需要大量資料進行訓練

訓練要求很高的硬體配置

模型處于黑箱狀态,難以了解内部機制

元參數(Metaparameter)與網絡拓撲選擇困難。

收藏!機器學習算法分類圖譜及其優缺點綜合分析

深度學習是人工神經網絡的最新分支,它受益于當代硬體的快速發展。衆多研究者目前的方向主要集中于建構更大、更複雜的神經網絡,目前有許多方法正在聚焦半監督學習問題,其中用于訓練的大資料集隻包含很少的标記。

深玻耳茲曼機(Deep Boltzmann Machine,DBM)

Deep Belief Networks(DBN)

卷積神經網絡(CNN)

Stacked Auto-Encoders

優點/缺點:

見神經網絡

收藏!機器學習算法分類圖譜及其優缺點綜合分析

支援向量機(SVM)是這樣一種訓練算法,在給定一組訓練事例(其中每個事例都屬于兩個類别中的一個)之後,它就可以在被輸入新的事例後将其分類到兩個類别中的一個,使自身成為非機率二進制線性分類器。SVM 模型将訓練事例表示為空間中的點,它們被映射到一幅圖中,由一條明确的、盡可能寬的間隔分開以區分兩個類别。随後,新的示例會被映射到同一空間中,并基于它們落在間隔的哪一側來預測它屬于的類别。

在非線性可分問題上表現優秀

非常難以訓練

很難解釋

收藏!機器學習算法分類圖譜及其優缺點綜合分析

降維算法和集簇方法類似,追求并利用資料的内在結構,目的在于使用較少的資訊總結或描述資料。這一算法可用于可視化高維資料或簡化接下來可用于監督學習中的資料。許多這樣的方法可針對分類和回歸的使用進行調整。

主成分分析(Principal Component Analysis (PCA))

主成分回歸(Principal Component Regression (PCR))

偏最小二乘回歸(Partial Least Squares Regression (PLSR))

Sammon 映射(Sammon Mapping)

多元尺度變換(Multidimensional Scaling (MDS))

投影尋蹤(Projection Pursuit)

線性判别分析(Linear Discriminant Analysis (LDA))

混合判别分析(Mixture Discriminant Analysis (MDA))

二次判别分析(Quadratic Discriminant Analysis (QDA))

靈活判别分析(Flexible Discriminant Analysis (FDA))

可處理大規模資料集

無需在資料上進行假設

難以搞定非線性資料

難以了解結果的意義

收藏!機器學習算法分類圖譜及其優缺點綜合分析

聚類算法是指對一組目标進行分類,屬于同一組(亦即一個類,cluster)的目标被劃分在一組中,與其他組目标相比,同一組目标更加彼此相似(在某種意義上)。

K-均值(k-Means)

k-Medians 算法

Expectation Maximi 封層 ation (EM)

最大期望算法(EM)

分層叢集(Hierarchical Clstering)

讓資料變得有意義

結果難以解讀,針對不尋常的資料組,結果可能無用。

收藏!機器學習算法分類圖譜及其優缺點綜合分析

基于執行個體的算法(有時也稱為基于記憶的學習)是這樣一種學習算法,不是明确歸納,而是将新的問題例子與訓練過程中見過的例子進行對比,這些見過的例子就在存儲器中。之是以叫基于執行個體的算法是因為它直接從訓練執行個體中建構出假設。這意味這,假設的複雜度能随着資料的增長而變化:最糟的情況是,假設是一個訓練項目清單,分類一個單獨新執行個體計算複雜度為 O(n)。

K 最近鄰(k-Nearest Neighbor (kNN))

學習向量量化(Learning Vector Quantization (LVQ))

自組織映射(Self-Organizing Map (SOM))

局部權重學習(Locally Weighted Learning (LWL))

算法簡單、結果易于解讀

記憶體使用非常高

計算成本高

不可能用于高維特征空間

收藏!機器學習算法分類圖譜及其優缺點綜合分析

貝葉斯算法是指明确應用了貝葉斯定理來解決如分類和回歸等問題的方法。

樸素貝葉斯(Naive Bayes)

高斯樸素貝葉斯(Gaussian Naive Bayes)

多項式樸素貝葉斯(Multinomial Naive Bayes)

平均一緻依賴估計器(Averaged One-Dependence Estimators (AODE))

貝葉斯信念網絡(Bayesian Belief Network (BBN))

貝葉斯網絡(Bayesian Network (BN))

快速、易于訓練、給出了它們所需的資源能帶來良好的表現

如果輸入變量是相關的,則會出現問題

收藏!機器學習算法分類圖譜及其優缺點綜合分析

關聯規則學習算法能夠提取出對資料中的變量之間的關系的最佳解釋。比如說一家超市的銷售資料中存在規則 {洋蔥,洋芋}=> {漢堡},那說明當一位客戶同時購買了洋蔥和洋芋的時候,他很有可能還會購買漢堡肉。

Apriori 算法(Apriori algorithm)

Eclat 算法(Eclat algorithm)

FP-growth

收藏!機器學習算法分類圖譜及其優缺點綜合分析

圖模型或機率圖模型(PGM/probabilistic graphical model)是一種機率模型,一個圖(graph)可以通過其表示随機變量之間的條件依賴結構(conditional dependence structure)。

  • 貝葉斯網絡(Bayesian network)
  • 馬爾可夫随機域(Markov random field)
  • 鍊圖(Chain Graphs)
  • 祖先圖(Ancestral graph)
  • 模型清晰,能被直覺地了解
  • 确定其依賴的拓撲很困難,有時候也很模糊

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-05-10

本文作者:新智元

本文來自:“

大資料DT 微信公衆号

”,了解相關資訊可以關注“

大資料DT

繼續閱讀