天天看點

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

回歸分析為許多機器學習算法提供了堅實的基礎。在這篇文章中,我們将總結10個重要的回歸問題和5個重要的回歸問題的評價名額。

線性回歸的假設是什麼?

線性回歸有四個假設:

  • 線性:自變量(x)和因變量(y)之間應該存線上性關系,這意味着x值的變化也應該在相同方向上改變y值。
  • 獨立性:特征應該互相獨立,這意味着最小的多重共線性。
  • 正态性:殘差應該是正态分布的。
  • 同方差性:回歸線周圍資料點的方差對于所有值應該相同。

什麼是殘差,它如何用于評估回歸模型?

殘差是指預測值與觀測值之間的誤差。它測量資料點與回歸線的距離。它是通過從觀察值中減去預測值的計算機。

殘差圖是評估回歸模型的好方法。它是一個圖表,在垂直軸上顯示所有殘差,在 x 軸上顯示特征。如果資料點随機散布在沒有圖案的線上,那麼線性回歸模型非常适合資料,否則我們應該使用非線性模型。

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

如何區分線性回歸模型和非線性回歸模型?

兩者都是回歸問題的類型。兩者的差別在于他們訓練的資料。

線性回歸模型假設特征和标簽之間存線上性關系,這意味着如果我們擷取所有資料點并将它們繪制成線性(直線)線應該适合資料。

非線性回歸模型假設變量之間沒有線性關系。非線性(曲線)線應該能夠正确地分離和拟合資料。

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

找出資料是線性還是非線性的三種最佳方法:

  1. 殘差圖;
  2. 散點圖;
  3. 假設資料是線性的,訓練一個線性模型并通過準确率進行評估。

什麼是多重共線性,它如何影響模型性能?

當某些特征彼此高度相關時,就會發生多重共線性。相關性是指表示一個變量如何受到另一個變量變化影響的度量。

如果特征 a 的增加導緻特征 b 的增加,那麼這兩個特征是正相關的。如果 a 的增加導緻特征 b 的減少,那麼這兩個特征是負相關的。在訓練資料上有兩個高度相關的變量會導緻多重共線性,因為它的模型無法在資料中找到模式,進而導緻模型性能不佳。是以在訓練模型之前首先要盡量消除多重共線性。

異常值如何影響線性回歸模型的性能?

異常值是值與資料點的平均值範圍不同的資料點。換句話說,這些點與資料不同或在第 3 标準之外。

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

線性回歸模型試圖找到一條可以減少殘差的最佳拟合線。如果資料包含異常值,則最佳拟合線将向異常值移動一點,進而增加錯誤率并得出具有非常高 MSE 的模型。

什麼是 MSE 和 MAE 有什麼差別?

MSE 代表均方誤差,它是實際值和預測值之間的平方差。而 MAE 是目标值和預測值之間的絕對差。

MSE 會懲罰大錯誤,而 MAE 不會。随着 MSE 和 MAE 的值都降低,模型趨向于一條更好的拟合線。

L1和L2正則化是什麼,應該何時使用?

在機器學習中,我們的主要目标是建立一個可以在訓練和測試資料上表現更好的通用模型,但是在資料非常少的情況下,基本的線性回歸模型往往會過度拟合,是以我們會使用 l1 和l2 正則化。

L1 正則化或 lasso 回歸通過在成本函數内添加添加斜率的絕對值作為懲罰項。有助于通過删除斜率值小于門檻值的所有資料點來去除異常值。

L2 正則化或ridge 回歸增加了相當于系數大小平方的懲罰項。它會懲罰具有較高斜率值的特征。

l1 和 l2 在訓練資料較少、方差高、預測特征大于觀察值以及資料存在多重共線性的情況下都很有用。

異方差是什麼意思?

它是指最佳拟合線周圍的資料點的方差在一個範圍内不一樣的情況。它導緻殘差的不均勻分散。如果它存在于資料中,那麼模型傾向于預測無效輸出。檢驗異方差的最好方法之一是繪制殘差圖。

資料内部異方差的最大原因之一是範圍特征之間的巨大差異。例如,如果我們有一個從 1 到 100000 的列,那麼将值增加 10% 不會改變較低的值,但在較高的值時則會産生非常大的差異,進而産生很大的方差差異的資料點。

方差膨脹因子的作用是什麼

方差膨脹因子(vif)用于找出使用其他自變量可預測自變量的程度。

讓我們以具有 v1、v2、v3、v4、v5 和 v6 特征的示例資料為例。現在,為了計算 v1 的 vif,将其視為一個預測變量,并嘗試使用所有其他預測變量對其進行預測。

如果 VIF 的值很小,那麼最好從資料中删除該變量。因為較小的值表示變量之間的高相關性。

逐漸回歸如何工作?

逐漸回歸是在假設檢驗的幫助下,通過移除或添加預測變量來建立回歸模型的一種方法。它通過疊代檢驗每個自變量的顯著性來預測因變量,并在每次疊代之後删除或添加一些特征。它運作n次,并試圖找到最佳的參數組合,以預測因變量的觀測值和預測值之間的誤差最小。

它可以非常高效地管理大量資料,并解決高維問題。

除了MSE和MAE,回歸還有什麼名額?

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

我們用一個回歸問題來介紹這些名額,我們的其中輸入是工作經驗,輸出是薪水。下圖顯示了為預測薪水而繪制的線性回歸線。

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

名額一:平均絕對誤差(MAE)

平均絕對誤差 (MAE) 是最簡單的回歸度量。它将每個實際值和預測值的內插補點相加,最後除以觀察次數。為了使回歸模型被認為是一個好的模型,MAE 應該盡可能小。

MAE的優點是:簡單易懂。結果将具有與輸出相同的機關。例如:如果輸出列的機關是 LPA,那麼如果 MAE 為 1.2,那麼我們可以解釋結果是 +1.2LPA 或 -1.2LPA,MAE 對異常值相對穩定(與其他一些回歸名額相比,MAE 受異常值的影響較小)。

MAE的缺點是:MAE使用的是模函數,但模函數不是在所有點處都可微的,是以很多情況下不能作為損失函數。

名額二:均方誤差(MSE)

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

MSE取每個實際值和預測值之間的內插補點,然後将內插補點平方并将它們相加,最後除以觀測數量。為了使回歸模型被認為是一個好的模型,MSE 應該盡可能小。

MSE的優點:平方函數在所有點上都是可微的,是以它可以用作損失函數。

MSE的缺點:由于 MSE 使用平方函數,結果的機關是輸出的平方。是以很難解釋結果。由于它使用平方函數,如果資料中有異常值,則內插補點也會被平方,是以,MSE 對異常值不穩定。

名額三:均方根誤差 (RMSE)

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

均方根誤差(RMSE)取每個實際值和預測值之間的內插補點,然後将內插補點平方并将它們相加,最後除以觀測數量。然後取結果的平方根。是以,RMSE 是 MSE 的平方根。為了使回歸模型被認為是一個好的模型,RMSE 應該盡可能小。

RMSE 解決了 MSE 的問題,機關将與輸出的機關相同,因為它取平方根,但仍然對異常值不那麼穩定。

上述名額取決于我們正在解決的問題的上下文, 我們不能在不了解實際問題的情況下,隻看 MAE、MSE 和 RMSE 的值來判斷模型的好壞。

名額四:R2 score

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

如果我們沒有任何輸入資料,但是想知道他在這家公司能拿到多少薪水,那麼我們能做的最好的事情就是給他們所有員工薪水的平均值。

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

R2 score 給出的值介于 0 到 1 之間,可以針對任何上下文進行解釋。它可以了解為是拟合度的好壞。

SSR 是回歸線的誤差平方和,SSM 是均線誤差的平方和。我們将回歸線與平均線進行比較。

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額
  • 如果 R2 得分為 0,則意味着我們的模型與平均線的結果是相同的,是以需要改進我們的模型。
  • 如果 R2 得分為 1,則等式的右側部分變為 0,這隻有在我們的模型适合每個資料點并且沒有出現誤差時才會發生。
  • 如果 R2 得分為負,則表示等式右側大于 1,這可能發生在 SSR > SSM 時。這意味着我們的模型比平均線最差,也就是說我們的模型還不如取平均數進行預測。

如果我們模型的 R2 得分為 0.8,這意味着可以說模型能夠解釋 80% 的輸出方差。也就是說,80%的工資變化可以用輸入(工作年限)來解釋,但剩下的20%是未知的。

如果我們的模型有2個特征,工作年限和面試分數,那麼我們的模型能夠使用這兩個輸入特征解釋80%的工資變化。

R2的缺點:

随着輸入特征數量的增加,R2會趨于相應的增加或者保持不變,但永遠不會下降,即使輸入特征對我們的模型不重要(例如,将面試當天的氣溫添加到我們的示例中,R2是不會下降的即使溫度對輸出不重要)。

名額五:Adjusted R2 score

上式中R2為R2,n為觀測數(行),p為獨立特征數。Adjusted R2解決了R2的問題。

當我們添加對我們的模型不那麼重要的特性時,比如添加溫度來預測工資.....

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

當添加對模型很重要的特性時,比如添加面試分數來預測工資……

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

以上就是回歸問題的重要知識點和解決回歸問題使用的各種重要名額的介紹及其優缺點,希望對你有所幫助。

轉載/機器學習研習院

最後給大家分享一個資料分析圖譜,内含資料分析12個常見分析模型、18個理論分支、136個詳細知識要點和60多個實際分析場景案例,不懂或不記得的知識點拿出地圖就能查,資料人必備!

最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額
最全機器學習知識點!10個機器學習算法回歸問題+5個評價名額

繼續閱讀