5種數值評分标準總結 - 為預測模型找到正确的度量标準

定量資料可以說出無窮無盡的故事！

每日收盤價告訴我們有關股市動态的資訊，有關家庭能源消耗的小型智能電表，有關運動過程中人體活動的智能手表，以及有關某些人對某個話題的自我評估的調查及時。不同類型的專家可以講這些故事：金融分析師，資料科學家，體育科學家，社會學家，心理學家等等。他們的故事基于模型，例如回歸模型，時間序列模型和ANOVA模型。

為什麼需要數值評分名額?

這些模型在現實世界中有很多影響，從投資組合經理的決策到一天、一周和一年不同時間的電價。為了達到以下目的，需要數值評分名額:

選擇最精确的模型
估計模型誤差對現實世界的影響

在本文中，我們将描述數值預測模型的五個真實的用例，在每個用例中，我們從略微不同的角度度量預測精度。在一種情況下，我們衡量一個模型是否有系統偏差，而在另一種情況下，我們衡量一個模型的解釋能力。本文最後回顧了數字評分名額，展示了計算它們的公式，并總結了它們的屬性。

均方(根)誤差，MSE(RMSE)

哪個模型能最好地捕捉動蕩的股票市場的快速變化?

在下面的圖1中，您可以看到LinkedIn收盤價從2011年到2016年的變化。在該時間段内，行為包括突然的峰值，突然的低點，更長的價值增加和減少時間以及一些穩定的時間段。預測這種不穩定行為具有挑戰性，尤其是從長期預測。但是，對于LinkedIn的利益相關者來說這是非常有價值的。是以，我們更喜歡一個能夠捕捉突然變化的預測模型，而不是一個在五年内平均表現良好的模型。

我們選擇具有最低（均方根）誤差的模型，因為與小誤差相比，該名額對大誤差的權重更大，并且偏向于能夠對短期變化做出反應并節省利益相關者金錢的模型。

圖1. 2011年至2016年LinkedIn每日股票市場收盤價：該資料幾乎沒有規律性，而許多突然變化卻具有較低的可預測性。我們選擇均方根誤差最低的預測模型，因為它對較大的預測誤差進行權重，并且偏向于可以捕獲突然的峰值和低點的模型。

平均絕對誤差，MAE

哪個模型能最好地估計長期的能源消耗?

在圖2中，您可以看到2009年7月都柏林的每小時能源消耗值，這是從一組家庭和行業收集的。能源消耗呈現出相對規律，工作日和工作時間能耗較高，夜間和周末能耗較低。這種規律的行為可以相對準确地預測，為能源供應的長期規劃提供了依據。是以，我們選擇了平均絕對誤差最小的預測模型。我們這樣做是因為它對大小誤差的權重相等，是以對異常值具有魯棒性，并顯示在整個時間段内哪個模型的預測精度最高。

圖2. 2009年6月在都柏林的每小時能源消耗值，該資料是從一系列家庭和行業中收集的。資料顯示出相對規則的行為，是以可以長期預測。我們選擇具有最低平均絕對誤差的預測模型，因為該名額對異常值具有魯棒性。

平均絕對百分比誤差，MAPE

不同産品的銷售預測模型是否同樣準确?

在炎熱的夏天，蘇打水和冰淇淋的供應應該是有保證的!我們想檢查預測這兩種産品銷售的兩種預測模型是否同樣準确。

這兩種模型預測的是同一機關的商品銷量，但規模不同，因為蘇打水的銷量要比冰淇淋大得多。在這種情況下，我們需要一個相對誤差度量，并使用平均絕對百分比誤差，它報告相對于實際值的誤差。在圖3中，在左側的折線圖中，可以看到2020年6月蘇打水(紫色線)和冰淇淋(綠色線)的銷量，以及這兩種産品的預測銷量(紅色線)。與冰淇淋相比，氣泡水的預測線似乎偏離得更多一些。然而，氣泡水的實際值越大，可見比較就會産生偏差。實際上，預測模型對氣泡水的效果比冰淇淋更好，正如MAPE值報告的那樣，氣泡水為0.191，冰淇淋為0.369。

但是，請注意，當實際值接近于0時，MAPE值可能會有偏差。例如，與夏季相比，冬季的冰淇淋銷量相對較低，而牛奶的銷量在全年都保持相當穩定。當我們通過MAPE值來比較牛奶和冰淇淋的預測模型的準确性時，冰淇淋銷量中的小值使得冰淇淋的預測模型看起來比牛奶的預測模型差得離譜。

在圖3中，在中間的折線圖中，您可以看到牛奶(藍色線)和冰淇淋(綠色線)的銷售額，以及這兩種産品的預測銷售額(紅色線)。如果我們看一下MAPE值，牛奶(MAPE = 0.016)的預測精度顯然比冰淇淋(0.266)好得多。然而，這種巨大的差異是由于冰激淩在冬季的銷售價值較低。圖3中右邊的直線圖顯示了冰淇淋和牛奶的實際和預測銷售完全相同，冰淇淋的銷售每月增加25件。在沒有接近于零的偏差的情況下，冰淇淋(MAPE=0.036)和牛奶(MAPE=0.016)的預測精度現在更接近彼此。

圖3.三個線圖顯示了冰淇淋和蘇打水的實際和預測值（左側的線圖）以及冰淇淋和牛奶的實際值和預測值（中間和右側的線圖）。在右側的線圖中，冰淇淋銷售價值按比例增加了25，以避免實際值過小的絕對絕對誤差造成偏差。

均值差異 Mean Signed Difference

是否提供不切實際的期望？

智能手表可以連接配接到一個跑步應用程式上，該應用程式可以估算10公裡的跑步時間。作為一種激勵因素，這款應用估算的時間可能比實際預期的要低。

為了測試這一點，我們從一組跑步者那裡收集了六個月的估計和實作的完成時間，并在圖4中的線圖中繪制平均值。正如您所看到的，在這6個月裡，實際完成的時間(橙色線)比預計完成的時間(紅色線)減少得更慢。我們通過計算實際完成時間和估計完成時間之間的平均符号差來确認估計中的系統偏差。它是負的(-2.191)，是以這個應用程式确實提高了不切實際的期望!但是，請注意，這個度量并不能說明誤差的大小，因為如果有跑步者跑得比預期的時間快，這個正誤差會補償負誤差的一部分。

圖4.在六個月的時間内進行10,000次運作時的估計（紅線）和已實作（橙色線）完成時間。估計的時間向下偏移，也由平均有符号差的負值表示。

r方 R-squared

通過閱讀可以等價于我們多少年教育？

在圖5中，您可以看到總體樣本中家中自學(x軸)和受教育年限(y軸)之間的關系。對資料拟合一條線性回歸線，以建立這兩個變量之間的關系模型。為了衡量線性回歸模型的拟合度，我們使用r方。

圖5.r方表示模型所解釋的目标列(教育年限)的方差。根據模型的r平方值，0.76，獲得文獻解釋了受教育年限中76%的方差。

五個數字評分名額的總結

上面介紹的數字評分名額如圖6所示。列出了這些名額以及用于計算它們的公式以及每個名額的一些關鍵屬性。在公式中，yi為實際值，f（xi）為預測值。

在本文中，我們介紹了最常用的錯誤名額以及它們對模型性能的影響。

通常建議您檢視多個數字評分名額，以全面了解模型的性能。例如，通過檢視均值符号差，您可以檢視模型是否存在系統偏差，而通過研究（均方根）均方根誤差，則可以檢視哪種模型最能捕捉突然的波動。可視化（例如折線圖）補充了模型評估。

作者:Rosaria Silipo

原文位址：https://towardsdatascience.com/numeric-scoring-metrics-acd3896c5eff

deephub翻譯組