Sklearn模型中預測值的R2_score為負數的問題探讨

Sklearn.metrics下面的r2_score函數用于計算R²（确定系數：coefficient of determination）。它用來度量未來的樣本是否可能通過模型被很好地預測。分值為1表示最好，但我們在使用過程中，經常發現它變成了負數，多次手動調參隻能改變負值的大小，卻始終不能讓該值變成正數。

本文将這一問題進行一些初步探讨，希望能起到夠抛磚引玉的作用。

R²的定義如下：![Alt]在這裡插入圖檔描述從公式來看，即使我們不使用任何模型，僅僅用目标集标簽的平均值，就能讓R2_score為0，如果值為負數，則表示我們預測的結果還不如測試集中的y_label的平均值準确。下面我們最簡單的模型去測試一下R2_score到底跟什麼有關系。

首先，我們先在三維空間裡建構兩個資料集。一個是z=y的一次平面，資料集在這個平面上。另外一個是z=xx+yy的二次抛物曲面，資料來自這個平面上。廢話不多說，上代碼：

import sklearn
from sklearn import preprocessing
from sklearn import linear_model
from sklearn.metrics import r2_score#R square
from sklearn.svm import SVR

建構z=y平面

X1_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y1_train = [0,1,0,1,0,0,-3,-1]

X1_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y1_test = [-1,2 ,-2,1.5,-1.5]

建構z= xx+yy平面

X2_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y2_train = [0,1,1,2,4,4,10,2]

X2_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y2_test = [5,4 ,5,4.5,4.5]

調用sklearn中的SVR回歸模型，并使用R2_score進行預測結果的評測。

#clf_SVR = SVR(kernel='poly',C=10,degree=2)
#clf_SVR = SVR(kernel='poly',C=10)
#clf_SVR = SVR()
clf_SVR = SVR(kernel='linear',C=10)
clf_SVR.fit(X_train, y_train)
y_train_forcast = clf_SVR.predict(X_train)
print ('SVR_train_model prediction is', sklearn.metrics.r2_score(y_train,y_train_forcast))

y_test_forcast = clf_SVR.predict(X_test)
print('y_test_forcast are',y_test_forcast)
print ('SVR_test_model prediction is', sklearn.metrics.r2_score(y_test,y_test_forcast))

将上面的各個模型跑一邊就會發現不同的結果。

1、當我們使用z= xx+yy平面資料集時，如果用clf_SVR = SVR(kernel=‘linear’,C=10)參數預測，輸出結果為：

SVR_train_model prediction is 0.617986574585546
y_test_forcast are [ 6.04290571 -1.24293971  6.899932    0.47141886  5.61418858]
SVR_test_model prediction is -69.93813277070895

從上面的預測結果看，y_test_forcast與真實的y2_test = [5,4 ,5,4.5,4.5]差别巨大。下面我們換用一次的z=y平面資料集進行一次測試，結果如下：

SVR_train_model prediction is 0.9965217391304347
y_test_forcast are [-1.     1.85  -1.95   1.375 -1.475]
SVR_test_model prediction is 0.9968984962406015

這次再看y_test_forcast與真實的y2_test = [5,4 ,5,4.5,4.5]，結果出奇的好。為什麼會這樣呢？仔細看一下我們使用的SVR核函數為linear，是以，這個模型是用來拟合一次線性關系的資料的模型，是以我們把二次曲面z= xx+yy平面資料在這個模型上去拟合，就會出現預測誤差非常大的情況，R2_score，居然為負數。

希望這個實驗能給大家一些啟發，kernel模型的選取對最終的模型是否成功關系巨大，有興趣的網友還可以試試z= xx+yy平面資料在SVR（）預設參數（即高斯核），在SVR(kernel=‘poly’,C=10,degree=2)和SVR(kernel=‘poly’,C=10)的情況下，R2_score結果對比情況。

綜上所述，sklearn.svm參數模型非常好用，但是一定要注意自己模型的大概情況，并且要使用與資料分布類似的核函數去模拟，不可以直接拿SVM的預設值當黑盒一樣，直接無腦調用fit（）函數，那麼很可能預測的結果與我們的期望大相徑庭。

Sklearn模型中預測值的R2_score為負數的問題探讨

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告