天天看點

解讀|風控模型的客觀認識與深入了解

作者:番茄風控大資料宣

在信貸風控場景中,我們經常接觸到機器學習的分類模型,例如貸前的違約預測、貸中的風險預警、貸後的價值分層等,可以說分類模型是信貸模型體系的主要内容。對于分類模型效果的評估,我們也相對比較熟悉,常用的宏觀評價名額包括KS、AUC、Accuracy、Precision、Recall、F1_score等,但在模型實際應用過程中,由于模型應用業務場景的差別,以及模組化人員處理方法的差異,針對以上常見評估名額并不會同時用來綜合分析,而是選擇其中一項或多項來進行描述,最常見的便是名額Accuracy準确率,不僅通俗易懂,而且實作友善,在很大程度上确實可以反映模型決策的應用效果,是以是模組化工程師經常采用的模型名額。

對于Accuracy的原理邏輯,是根據分類模型的混淆矩陣推理得到的,具體公式為Accuracy=(TP+TN)/(TP+FP+TN+FN),其中TP、TN、FP、FN分别代表真正例、真負例、假正例、假負例。Accuracy的取值範圍為0~1,值越大說明模型的準确性能越強,這是對模型效果的通俗了解。當然,這個客觀規律是沒有問題,但需要我們注意的是,模型準确率Accuracy有其一定的局限性,這在模型評價與應用的實際場景中是非常重要的。為了大家進一步了解模型的準确率,本文将結合具體樣例為大家簡單介紹下名額的應用的局限性。

1、準确率高不一定代表模型效果好

模型準确率名額的推導過程,前提條件是将每個樣本結果是同等看待的,也就是無論模型的預測結果正确與否,從模型性能名額分析其每個樣本提供的資訊影響程度是相同的,此處可以了解為是一種“均勻投票”的機制,與樣本資料真實标簽的權重沒有任何關系。

在這種情形下,現舉個實際樣例,假設某反欺詐分類模型的模組化資料包含10000條樣本,目标變量分布0:1(非欺詐/欺詐)的比例為97:3,當然這屬于樣本不平衡的現象,這對于信貸業務的欺詐識别、銷卡預測等場景是很常見的。在此模組化場景下,如果我們不對樣本不平衡情況進行有效處理,那麼模型最終預測結果即使将目标1(欺詐)全部判斷為0,則模型的準确率Accuracy值為97%,顯然這個值對于準确度名額來講是很高的,在不深入了解模組化資料分布的情況下,讓人很容易誤解為模型的效果很好,而實質上模型的性能很差,也就是将真實欺詐使用者全部預測為非欺詐,顯然這并不符合實際業務需求。

是以,模型準确率高并不代表模型的效果,具體需要分析實際業務的應用場景,以及樣本資料的分布情況。在信貸風控的日常工作中,如果聽到有某個模型的準确率名額可以達到多高,不要簡單的認為模型效果很好,而是需要進一步了解模組化的具體場景。如果客觀認識到模型的Accuracy(準确率)不能有效反映模型效果的好壞,可以采用其他模型名額來進一步判斷分析,例如Precision(精确率)、Recall(召回率)、F1_score(F1分數)等。

2、準确率相同不代表模型判别能力相同

以上關于“準确率高不一定代表模型效果好”的問題,是圍繞模組化樣本資料不平衡場景來描述的,雖然屬于特殊場景但也是經常遇到的。其實對于正常場景也就是模組化樣本資料比較平衡的情形下,模型的Accuracy(準确率)名額依然存在着明顯的局限性,那就是準确率相同不代表模型判别能力相同,現結合樣例進行說明。

現有一份模組化樣本資料,采用不同的分類模型算法(例如邏輯回歸、XGBoost等),或者采用同一模型算法但不同入模參數(優化方法、疊代次數、學習率等),來建立兩個分類模型,其模型預測機率的分布結果如下圖所示。

解讀|風控模型的客觀認識與深入了解

編輯

添加圖檔注釋,不超過 140 字(可選)

圖1 模型效果對比

上圖展示的模型效果對比資訊,為了便于分析假設模組化資料隻有10個樣本id,true_label為樣本的真實标簽,predict_prob1、predict_prob2分别為兩個分類模型對樣本标簽的預測機率,假設分類門檻值threshold設定為0.5,則模型預測标簽結果分别為predict_label1、predict_label2。

由模型預測結果可以看出,這兩個模型的預測結果label是相同的,通過真實标簽與預測标簽對比可知,預測錯誤的樣本id為N02、N08、N09,其餘id預測正确,從模型名額Accuracy來分析,兩個模型的準确率均為70%(7/10)。接下來便是我們想要描述的重點,若以模型Accuracy來衡量這兩個分類模型的效果,那模型性能看起來是一緻的。但是,我們可以進一步分析下預測标簽predict_label的前提邏輯,也就是預測機率predict_prob,可以發現對于同一個樣本的相同預測結果label,模型2的預測機率predict_prob表現更為優秀。例如,對于預測正确的樣本N01,兩個模型對應的預測機率值分别為0.871、0.962,模型2預測此樣本為1的機率更高,對分類标簽的判斷精度更強。再例如,對于預測錯誤的樣本N02,兩個模型對應的預測機率值分别為0.173、0.469,模型2預測此樣本為1的機率同樣更高,雖然沒達到分類門檻值0.5,但相比模型1的預測精度更為合理。綜合兩個預測樣例,可以說明模型2的分類性能是明顯優于模型1,但從宏觀名額準确率Accuracy是看不出的。

針對以上情況,在實際業務場景中,在兩個模型準确率Accuracy一緻的情況下,若不考慮其他模型名額(Precision、Recall、F1_score等),可以采用一個應用不是很廣泛但特别有效的名額來進行分析,這個名額名稱是“交叉熵”,簡稱BCE,可以直接反映分類模型自身的識别判斷能力,原理邏輯公式如下:

解讀|風控模型的客觀認識與深入了解

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

其中,pn表示第n條樣本模型預測對應真實标簽label的機率(若label為1則為預測1的機率,若真實标簽為0則為預測0的機率)。

模型交叉熵BCE的取值越小,說明模型對類型判别的區分能力越強。根據以上交叉熵的推導公式,可以得到模型1與模型2的BCE值,具體如下所示:

解讀|風控模型的客觀認識與深入了解

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

解讀|風控模型的客觀認識與深入了解

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

根據模型的交叉熵結果對比,由于BCE1<BCE2,說明模型1與模型2的分類判别能力是存在一定差異的,且模型2的區分能力更好,這也進一步驗證了前邊預測精度的分析過程與結論。是以,在實際場景中,模型的準确率相同并不代表模型判别能力相同,在多個模型的準确率Accuracy比較接近的情況下,可以考慮采用模型的交叉熵名額來分析,當然更不影響KS、AUC、Precision、Recall、F1_score的綜合應用,具體需要結合場景需求以及模組化經驗,這也是風控的可妙之處。

綜合以上内容,我們圍繞實際業務場景,深入分析了模型準确率Accuracy名額應用的細節,一個是準确率高不一定代表模型效果好,另一個是準确率相同不代表模型判别能力相同,便于大家日常在建立分類模型任務中,更客觀的了解模型效果與深入評價方法,進而提高自身的模型了解與分析能力。

關于風控模型相關的内容,在我們曆史的會員課程跟知識星球社群平台中,也跟大家分享過不少相關幹貨文檔跟文字。如這一期的文檔内容,也得到了許多童鞋的點贊,如果還沒檢視,可以到知識星球平台學習這一相關内容:

解讀|風控模型的客觀認識與深入了解

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

解讀|風控模型的客觀認識與深入了解

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

關于風控模型,有興趣的童鞋可關注:

解讀|風控模型的客觀認識與深入了解

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

...

~原創文章

繼續閱讀