天天看點

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

幾乎每個機器學習從業者都知道回歸,其中一些人可能認為這沒什麼大不了的,隻是從參數之間的切 換罷了。本文将闡明每種回歸算法的細節,以及确切的差別。包括 :

  • OLS
  • Weighted Least Squares
  • Lasso
  • Ridge
  • Polynomial Regression
  • Logistic regression
  • Support Vector Regression
  • Elastic Net
  • Bayesian Regression
  • RANSAC
  • Theil Sen
  • Huber Regression
  • Decision Tree Regression

1. 介紹

我們的資料:  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

我們打算從我們的資料集中訓練一個模型,并 在未知的測試集中測試它。算法性能良好的标準是錯誤低(從預測值到實際值的距離)。當涉及回歸任務 時,我們第一時間就會想到線性回歸。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

這個模型是線性的并且易于實作(圖 1)。  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

被叫做斜率并且  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

被叫做截距。  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

解釋了當  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

改變的時 候 

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

 改變的程度。  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

意味着随機錯誤(白色噪音),一般說來都會被省略。

2. OLS

在機器學習中,

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

我們經常通過優化目标函數來找出最好的模型。OLS(Ordinary Least Squares) 充當 了一個很有效果的損失函數隻要模型滿足六個 OLS 的必要假設。那麼它就能通過優化如下的函數來找到 具有最小方差的無偏差模型。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

2.1 首要的假設

• 線性

深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!

而且,我們可以應用 Box Cox 特征轉換,它可以使資料更接近正态分布。可以從這裡下載下傳資料:

https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv

。我選擇 total sulfur dioxide 作為 X,quality 作為 y. 是以,它可以減輕異方差(圖 6)。請注意,并 非總是如此一個很好的解決方案。但是我們可以在 WLS 之前嘗試使用它們。有時候,情況可能更 糟(圖 7)。

• 錯誤獨立分布(無自相關)。例如,您要預測股票市場中的市場佔有率。但錯誤是相關的,而它們本 應為  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

(獨立分布)。當發生金融危機時,股票的份額将在未來幾個月内減少。可以通過 Durbin Watson Test(表 3)或繪制 textbf 自相關圖進行檢測。如果 y 的值位于在 

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

 ,則為正相關。如 果值等于 0,則它們的含義是無相關。否則,它們的含義是負相關。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

表3. Durbin Watson Test

自相關會影響标準差,但不太可能影響模型的系數和截距。

有兩種常見的解決方法。第一種方法是添加被忽律的變量。例如,您想按時間預測股票表現。無疑, 該模型具有很高的自相關性。但是,我們可以添加 S & P 500。希望它可以減輕自相關。第二種方 法是改變模型函數。您可以将線性模型轉換為平方模型。另外,也别忘了多項式回歸。

無多重共線性。如果自變量彼此相關,則資料中存在多重共線性。我們可以使用方差膨脹因子(VIF) 進行檢測(

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

  是決策系數)。如果值為 1,表示預測變量之間不存在多重共線性。如果值大于 5,則 表示存在潛在的多重共線性。如果值大于 10,則表示明顯的多重共線性。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!

3. Lasso Regression

3.1 Background

在機器學習中,我們采用我們的模型通過對大量資料進行訓練來預測值。但是,對過多資料進行訓練 會産生一個副産品,即機器可能會記住所有訓練資料。當涉及到新的測試資料時,我們的機器無法對其進 行正确的估算,這稱為過拟合。實際上,我們不知道到底需要多少資料。如果縮減資料量,則可能會導緻 textbf 欠拟合。是以,我們必須更改模型。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

3.2 稀疏方法

在這裡,我們使用均方誤差。最初,我們需要使模型的誤差盡可能小,這可能會導緻複雜的模型(太多系數)。通常,如果我們的模型是太複雜了,它的泛化能力很低。為了解決這個問題,出現了正則化。 

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

 代表我們要懲罰模型的程度(變簡單)。通過添加 L1 常項,我們将選擇一個誤差最小的簡單模型,該模型與奧卡姆剃刀原則一緻。L1 可能把許多系數設定為

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

  。不可避免地,某些特征會是以失去對  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

的影響, L1 真正要做的是執行特征選擇。

3.3 震蕩

梯度下降在使目标函數最小化中起着關鍵作用。在優化過程中,L1 總是減去常數。是以,當資料值 很小時,L1 尤為重要。L1 執行特征選擇,不穩定并可能導緻震蕩。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

圖5. 中間那條顯示 OLS 和 MLS 拟合情況資料,其他是兩個算法的預測值範圍

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

4. Ridge Regression

4.1 背景 

盡管 Lasso 能夠處理過拟合,但它缺乏穩定性。是以,Ridge 是 Lasso 的替代方案。

4.2 穩定性 

深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!

随機抽樣一緻是魯棒回歸模型之一。通過不斷重新估計,RANSC 使用共識集(Inliers Set)的所有 成員來提高準确性。

6.3 Theil-Sen Regression 

這是一種無參數方法,這意味着它無需對資料的分布進行任何假設。它還具有一個臨界情況(通常為 29.3 % ),表明它隻能容忍異常值分布的最大值為 29.3 %。

6.4 Huber Regression 

當值很大時,Huber 會将其損失函數轉換為線性損失,以最大程度地減少對模型的影響。  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

作為門檻值, 決定多大的資料需要給予線性損失。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

7. Bayesian Regression

7.1 Bayesian Theorem 

例如,我們将采用一個模型來區分電子郵件是正常的還是垃圾郵件。是以,我們的模型所面對的是它必須對未知電子郵件進行預測。我們的資料包含 100 封電子郵件,其中 10% 是垃圾郵件。是以,垃圾郵 件的百分比為 10 。但這絕對不是全部。在貝葉斯中,它稱為前驗機率,這代表着分布的基礎假設,同時 這也是貝葉斯開始的地方。在算法開始時,貝葉斯是有偏見的,是以該模型很容易受到一開始的資料分布的影響。例如,如果我們隻有 10 封普通電子郵件,我們未來是不可能不收到一封垃圾郵件的。換句話 說,如果我們的資料量很小,就不太建議實施貝葉斯算法。但是,不斷進行資料訓練,我們最終應該會獲 得理想的結果。下面的等式,P(B)是歸一化項,P(A)是前驗機率。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

是後驗機率。總而言之, 當我們擁有大量資料時,貝葉斯算法可能是一個很好的選擇,它可以像其他算法一樣準确地執行。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

7.2 MLE 

一般來說,我們的目标是找出真正的資料分布,這幾乎是不可能的。是以,我們需要一個與問題域的 資料分布更接近的資料分布。MLE(最大似然法)。它表示我們希望最大化從假設分布采樣出真正分布在資料集中的資料的機率。(圖 9)

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

7.3 MAP 

通常,我們可以使用 MAP 最大化後驗機率)替換 MLE。它基于貝葉斯定理。MAP 是 貝葉斯回歸 (下式)的基礎。貝葉斯回歸不像其他算法,它不會生成單個值,而是生成可能的分布範圍。在大多數 情況下,MLE 和 MAP 可能會得到相同的結果。但是,當 MAP 的假設為與 MLE 不同,它們無法獲得相 同的結果。當先驗機率服從均勻分布時,它們可以獲得相同結果。從另一個角度來看,如果我們對資料 有精确的了解,則貝葉斯回歸為一個很好的選擇,因為它可以作為先驗機率,或者我們可以像 Weighted Least Errors 一樣給每個不同的選擇不同的權重。有趣的是,前驗分布可以看作是正則化或模型的偏見, 因為前驗分布可以是改為 L2 範數,這種模型也被稱為貝葉斯嶺回歸。下式表示給定模型 m,輸 出 y 的機率。以及  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

和  

深入讨論機器學習 8 大回歸模型的基本原理以及差異!

(标準差)是任意值。

深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!
深入讨論機器學習 8 大回歸模型的基本原理以及差異!

10. 結論 

10.1 了解你的模型 

許多模型不是即插即用的。它有一些限制,隻有滿足他們的假設,它們才能表現良好。是以,了解模型背後的内容比盲目地應用模型更重要。此外,當面臨難題時,您應該對可以嘗試的算法有一個完整的了 解。 

10.2 資料第一位 

機器學習問題不是擷取資料和應用模型。給模型提供什麼樣的資料對模型的最佳性能起關鍵作用。如果對模型了解得很少,就無法了解什麼樣的資料正是您的模型需求,您無法進一步預處理資料。最終,您 将永遠不會讓模型的性能産生任何提升。這是浪費時間。

繼續閱讀