天天看點

模型評估名額之機率分布評估名額(二)

文章目錄

    • 一. ROC曲線:
    • 二.提升圖:
    • 三.洛倫茲圖:
    • 四.K-S曲線:
    • 五.總結:
    • 六.其他模型評估名額

一. ROC曲線:

橫軸是FPR(False Positive Rate),縱軸是TPR(True Positive Rate)。

 

模型評估名額之機率分布評估名額(二)

關于ROC的繪制過程上篇文章已經講解過了ROC曲線的繪制

咱們在這裡簡單介紹一下:

模型評估名額之機率分布評估名額(二)

一個完美的模型可以通過設定一個機率門檻值點,使得大于該機率門檻值的樣本均為正樣本即壞樣本,小于該機率門檻值的樣本均為負樣本即好樣本。

由圖可以看出:

  • ROC 曲線由 A 點經過 B 點到達 C 點,表示在舍棄 0%的好使用者的前提下,可以 100%地拒絕壞使用者,即沒有壞使用者被準入
  • 圖中虛線可以看出,在舍棄 50%的好使用者的前提下,可以避免 50%的壞使用者,此時錯殺了一半的好使用者,并且有一半的壞使用者沒有識别出來。

ROC 曲線應該在虛線的左上部且越靠近 B 點時模型的表現越好

ROC 曲線的量化表示為 AUC

AUC: ROC 曲線與坐标軸圍成的面積,面積越大表示模型的性能越好。

由于 AUC 的取值在 0.5~1 之間,我們更習慣于一個取值範圍在 0~1 之間的名額,這時候就有了歸一化後的 AUC 表示方式就是基尼系數或基尼統計量

注意,這裡的基尼系數和決策樹的基尼系數是不同的,隻是名稱類似.

公式:

模型評估名額之機率分布評估名額(二)

ROC 曲線的本質:反映了舍棄一定數量的好使用者可以避免多少壞使用者之間的互相關系.

二.提升圖:

提升圖的作用:提升圖比較的是采用模型與不采用模型帶來的改善,即采用模型後對壞樣本識别能力的提升程度。

提升圖的計算過程: 提升圖衡量的是在用模型進行樣本準入稽核後對壞樣本分布的改變,進而将壞樣本集中在前幾組中,通過合理設定通過率來降低壞賬率。

舉例說明:

  以壞樣本為正樣本,假設樣本總體為 10,000,實際違約率為7%,即實際違約的樣本為 700 個。建構評分卡模型,給出預測正樣本的機率輸出。将機率降序排列(機率越大逾期的可能性越高),然後将機率等分為 10 組,分别計算每組的實際違約數、占總違約數的占比,累計占比.

  

如圖:

模型評估名額之機率分布評估名額(二)
模型評估名額之機率分布評估名額(二)

壞樣本占比的計算公式為組内實際的壞樣本數比壞樣本總數,累計占比為壞樣本占比的累加結果。

提升圖的繪制:采用模型判斷得到的每組壞樣本占比與随機判斷每組的壞樣本占比繪圖得到提升圖

注意:注意,組内樣本數均為 1,000,是随機猜想狀态下樣本應該均勻地分布在不同的組内而得到的,實際樣本數不會是完全均等的每組 1,000 個樣本。

模型評估名額之機率分布評估名額(二)

由提升圖可以發現,随着模型預測機率(預測壞樣本)的下降,其實際的壞樣本的占比逐漸下降,即模型的預測結果與真實的違約情況有很好的單調關系

模型評估名額之機率分布評估名額(二)

如圖 9-8 所示,第 6 組的壞樣本占比高于第 5 組的壞樣本占比,需要重建立模。

提升圖的另外一種表現形式:

  為了直覺地比較有模型判斷與随機判斷在識别壞樣本的提升程度上的差别,可以将采用模型判斷得到的每組壞樣本占比與随機判斷每組的壞樣本占比做比值,更加直覺地看到性能的提升.

  

模型評估名額之機率分布評估名額(二)

三.洛倫茲圖:

洛倫茲圖繪制:采用模型判斷得到的每組累計壞樣本占比與随機判斷每組的累計壞樣本占比進行繪圖,就得到了累計提升圖也叫洛倫茲圖。

模型評估名額之機率分布評估名額(二)

較好的模型的洛倫茲圖應該更偏向于左上坐标軸

洛倫茲圖與ROC曲線圖這兩種比較模型性能的方式相同。

  • ROC 曲線的計算過程是将總體樣本按預測機率降序排列(預測壞樣本的機率),并将機率分為 10 等份,這個過程與洛倫茲曲線的計算過程一緻。
  • ROC 曲線以每個機率值作為 cutoff 重新計算整體的 TPR 和 FPR。這裡的 TPR 與洛倫茲曲線是一緻的。
  • 洛倫茲曲線計算表中,每個組别(機率區間)的實際違約占比就是該組内TPR其分子為該組内的 TP 值,而分母為整個真實正樣本數為 TP+FN=700。累計占比為各個組别内的占比加和,由于分母都是 TP+FN=700,是以這與在 ROC 曲線中直接計算某一機率為cutoff 時 計 算 TPR 是 等 價 的 , 即 縱 坐 标 就 是TPR=P(p≥cutoff|B)=TP/(TP+FN)。

不同點:

  • 橫坐标的表示,ROC 曲線中橫坐标是 FPR=P(p≥cutoff|G)=FP/(FP+TN)代表的是對不逾期樣本的誤判率。
  • 而洛倫茲圖的橫坐标為分組數,因為同樣對預測機率分組,是以分組形式隐含表示了每組的機率邊界及通過率等資訊

總結:洛倫茲曲線與 ROC 曲線本質是相同的,隻是橫坐标表示的資訊有所不同。

模型評估名額之機率分布評估名額(二)

洛倫茲圖橫坐标可以表示通過率。

   比如以 4 組的虛線位置為 cutoff,則 1 到 4 組作為拒絕的樣本,将 5 到 10 組作為通過的樣本,此時通過率為 60%,對應的機率邊界為 0.6,對應的 cutoff=0.6,即模型預測機率大于等于 0.6 的樣本都拒絕授信,隻将機率小于 0.6 的樣本作為準入樣本。比較模型 1 和模型 2 的性能,在通過率為 60%的情況下,模型 1 可以識别出 89%的壞樣本,而模型 2 隻能識别出 79%的壞樣本。對于模型 1 來說意味着隻有 11%的漏報率,即将 11%的壞樣本作為好樣本給予授信.

   簡單點說就是模型以壞樣本為正樣本。是以橫坐标為通過率 ,即在4為cutoff時通過率為60%,通過率大于等于60%的都是拒絕樣本,小于60%的準入樣本。

   

模型性能:洛倫茲曲線中可以知道,越接近左上坐标軸,模型的性能越好。

量化模型性能:用洛倫茲曲線與随機判斷對角線圍成的面積A 來量化模型的性能。

  • A 的面積等于 A+B 的和,此時可以完美地識别所有壞樣本;
  • 如果 A 的面積為0,此時為随機判斷方法。我們将可提升的面積與提升的極限做比值定義為基尼系數,是以,基尼系數的取值範圍是[ 0 , 1 ]。

基尼系數的計算公式可表示為:

模型評估名額之機率分布評估名額(二)
模型評估名額之機率分布評估名額(二)

令圖中的矩形面積為 1,那麼 A+B 的面積為 0.5。AUC =C+A,是以,G=2AUC-1。需要注意的是基尼系數和 AR(AccuracyRatio)是等價的

四.K-S曲線:

K-S本質:K-S 曲線的本質就是壞樣本的洛倫茲曲線和好樣本的洛

倫茲曲線。(就是兩條落輪茲曲線,一條好,一條壞。)

模型評估名額之機率分布評估名額(二)

在介紹洛倫茲曲線時已經證明逾期樣本的累積占比曲線就是TPR。同理,不逾期樣本的累積占比曲線就是 FPR。在 K-S 曲線中可以看出,橫坐标的機率分組其實就是 ROC 曲線中給定不同的cutoff 切分點。

KS 值,計算公式:KS=Max(TPR-FPR)

KS值作用:KS 值反應了模型對好壞樣本的區分能力,KS 值越大表示對好壞樣本的區分能力越強。

K-S 曲線作用:不同的機率分組下或者了解為不同的 cutoff 下模型對逾期樣本與不逾期樣本的識别能力。

模型評估名額之機率分布評估名額(二)
注意:KS 值表征的是模型對正負樣本的區分能力,但ks值本身沒有傾向性對正樣本區分好一些與對負樣本好一些,其KS 值可能是一樣的。是以,在實際使用中不能單看 KS 這一單個名額,不能認為 KS 值很高,就斷言模型可用。此時需要檢視 Recall和 Percison 名額,衡量模型對正樣本的區分能力的好壞。

五.總結:

  • ROC 曲線與坐标軸圍成的面積,面積越大表示模型的性能越好。
  • 提升圖的作用是采用模型後對壞樣本識别能力的提升程度。
  • 洛倫茲曲線中可以知道,越接近左上坐标軸,模型的性能越好。
  • KS值反應了模型對好壞樣本的區分能力,KS 值越大表示對好壞樣本的區分能力越強。

六.其他模型評估名額

模型的評估名額(一)

繼續閱讀