天天看點

Sklearn模型中預測值的R2_score為負數的問題探讨

Sklearn.metrics下面的r2_score函數用于計算R²(确定系數:coefficient of determination)。它用來度量未來的樣本是否可能通過模型被很好地預測。分值為1表示最好,但我們在使用過程中,經常發現它變成了負數,多次手動調參隻能改變負值的大小,卻始終不能讓該值變成正數。

本文将這一問題進行一些初步探讨,希望能起到夠抛磚引玉的作用。

R²的定義如下:![Alt]在這裡插入圖檔描述從公式來看,即使我們不使用任何模型,僅僅用目标集标簽的平均值,就能讓R2_score為0,如果值為負數,則表示我們預測的結果還不如測試集中的y_label的平均值準确。下面我們最簡單的模型去測試一下R2_score到底跟什麼有關系。

首先,我們先在三維空間裡建構兩個資料集。一個是z=y的一次平面,資料集在這個平面上。另外一個是z=xx+yy的二次抛物曲面,資料來自這個平面上。廢話不多說,上代碼:

import sklearn
from sklearn import preprocessing
from sklearn import linear_model
from sklearn.metrics import r2_score#R square
from sklearn.svm import SVR
           

建構z=y平面

X1_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y1_train = [0,1,0,1,0,0,-3,-1]

X1_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y1_test = [-1,2 ,-2,1.5,-1.5]
           

建構z= xx+yy平面

X2_train = [[0,0],[0,1],[1,0],[1,1],[2,0],[-2,0],[1,-3],[-1,-1]]
y2_train = [0,1,1,2,4,4,10,2]

X2_test = [[2,-1],[0,2],[-1,-2],[1.5,1.5],[-1.5,-1.5]]
y2_test = [5,4 ,5,4.5,4.5]
           

調用sklearn中的SVR回歸模型,并使用R2_score進行預測結果的評測。

#clf_SVR = SVR(kernel='poly',C=10,degree=2)
#clf_SVR = SVR(kernel='poly',C=10)
#clf_SVR = SVR()
clf_SVR = SVR(kernel='linear',C=10)
clf_SVR.fit(X_train, y_train)
y_train_forcast = clf_SVR.predict(X_train)
print ('SVR_train_model prediction is', sklearn.metrics.r2_score(y_train,y_train_forcast))

y_test_forcast = clf_SVR.predict(X_test)
print('y_test_forcast are',y_test_forcast)
print ('SVR_test_model prediction is', sklearn.metrics.r2_score(y_test,y_test_forcast))
           

将上面的各個模型跑一邊就會發現不同的結果。

1、當我們使用z= xx+yy平面資料集時,如果用clf_SVR = SVR(kernel=‘linear’,C=10)參數預測,輸出結果為:

SVR_train_model prediction is 0.617986574585546
y_test_forcast are [ 6.04290571 -1.24293971  6.899932    0.47141886  5.61418858]
SVR_test_model prediction is -69.93813277070895
           

從上面的預測結果看,y_test_forcast與真實的y2_test = [5,4 ,5,4.5,4.5]差别巨大。下面我們換用一次的z=y平面資料集進行一次測試,結果如下:

SVR_train_model prediction is 0.9965217391304347
y_test_forcast are [-1.     1.85  -1.95   1.375 -1.475]
SVR_test_model prediction is 0.9968984962406015
           

這次再看y_test_forcast與真實的y2_test = [5,4 ,5,4.5,4.5],結果出奇的好。為什麼會這樣呢?仔細看一下我們使用的SVR核函數為linear,是以,這個模型是用來拟合一次線性關系的資料的模型,是以我們把二次曲面z= xx+yy平面資料在這個模型上去拟合,就會出現預測誤差非常大的情況,R2_score,居然為負數。

希望這個實驗能給大家一些啟發,kernel模型的選取對最終的模型是否成功關系巨大,有興趣的網友還可以試試z= xx+yy平面資料在SVR()預設參數(即高斯核),在SVR(kernel=‘poly’,C=10,degree=2)和SVR(kernel=‘poly’,C=10)的情況下,R2_score結果對比情況。

綜上所述,sklearn.svm參數模型非常好用,但是一定要注意自己模型的大概情況,并且要使用與資料分布類似的核函數去模拟,不可以直接拿SVM的預設值當黑盒一樣,直接無腦調用fit()函數,那麼很可能預測的結果與我們的期望大相徑庭。

繼續閱讀