天天看點

風控業務-特征IV值和WOE值的計算原理和差別

       我們在用邏輯回歸、決策樹等模型方法建構分類模型時,經常需要對自變量進行篩選,比如我們有200個候選自變量,通常情況下,不會直接把200個變量直接放到模型中去進行拟合訓練,而是會用一些方法,從這200個自變量中挑選一些出來,放進模型,形成入模變量清單。

       挑選入模變量過程是個比較複雜的過程,需要考慮的因素很多,比如:變量的預測能力,變量之間的相關性,變量的簡單性(容易生成和使用),變量的強壯性(不容易被繞過),變量在業務上的可解釋性(異議時可以解釋的通)等等。但是,其中最主要和最直接的衡量标準是變量的預測能力。

WOE的全稱是Weight of Evidence,即證據權重,WOE是對原始自變量的一種編形式,常用在風險評估、授信評分卡等領域。

IV的全稱是Information Value,中文意思是資訊價值,或者資訊量,可通過WOE權重求和得到,衡量自變量對應變量的預測能力。

目錄

WOE的概念及計算

IV值的計算

計算示例

相關問題注意

WOE的概念及計算

WOE 即變量權重,是對原始自變量的一種編碼形式。要對一個變量進行 WOE 編碼,需要首先把這個變量進行分組處理(也叫離散化、分箱),分組後,對于第i組,WOE的計算公式如下:

風控業務-特征IV值和WOE值的計算原理和差別

其中,

 pyi 是這個組中壞樣本的占總的壞樣本的比例(風險模型中,對應的是違約客戶,總之,指的是模型中預測變量取值為“是”或者說1的個體)占所有樣本中所有響應客戶的比例;

 pni 是這個組好樣本的占總的好樣本的比例;

 yi 是這個組中壞樣本的數量;

 ni 是這個組中好樣本的數量;

 yT 是樣本中所有壞樣本的數量;

 nT 是樣本中所有好的數量;

以上公式表示,實質上WOE表示的是目前分箱中好壞客戶的各自占總的好壞客戶比例的差異,對這個公式做一個簡單變換,可以得到:

風控業務-特征IV值和WOE值的計算原理和差別

變換以後含義更明顯,可以了解為目前組中正負樣本的比值,與所有樣本中正負樣本比值的差異。這個差異是用這兩個比值的比值,再取對數來表示的,差異越大,WOE越大,這個分組裡的樣本響應的可能性就越大,差異越小,WOE越小,這個分組裡的樣本響應的可能性就越小。

WOE可能為負,但其絕對值越大,對于分類貢獻越大。當分箱中正負的比例等于随機(大盤)正負樣本的比值時,說明這個分箱沒有預測能力,即WOE=0。

在類似Excel的行列式中存儲資料時,WOE計算公式為:

風控業務-特征IV值和WOE值的計算原理和差別

IV值的計算

對于一個分組後的變量,第i組的WOE已經介紹過,同樣,對于分組 i,也會有一個對應的IV值,計算公式如下:

風控業務-特征IV值和WOE值的計算原理和差別

IV值在WOE的基礎上保證了結果非負,根據變量在各分組上的IV值,得到整個變量的IV值為:

風控業務-特征IV值和WOE值的計算原理和差別

n為變量分組個數,WOE可能為負值,IV值不可能為負,根據IV值選擇變量後,用WOE替換變量各分組的值進入模型。

在類似Excel的行列式中存儲資料時,IV值計算公式為:

風控業務-特征IV值和WOE值的計算原理和差別

根據IV值評估變量預測能力

風控業務-特征IV值和WOE值的計算原理和差別

一般我們選擇 IV值大于0.02的那些變量進入模型。 如果IV值大于 0.5,改變量就是屬于過預測變量,通常被選座分群變量,将樣本拆分成多個群體,針對不同的群體分别開發模型。

計算示例

示例1:

假設,我們有一個變量為“最近一次購買金額”,“響應”和“未響應”即我們需要預測的标簽,現在要計算這個變量的IV值,首先需要對這個變量進行了離散化,統計的結果如下表所示,最近一次購買金額:

風控業務-特征IV值和WOE值的計算原理和差別

我們把這個變量離散化為了4個分段:<100元,[100,200),[200,500),>=500元。首先,根據WOE計算公式,這四個分段的WOE分别為:

風控業務-特征IV值和WOE值的計算原理和差別

通過WOE值,我們計算IV值

風控業務-特征IV值和WOE值的計算原理和差別

最後,我們計算變量總IV值:

風控業務-特征IV值和WOE值的計算原理和差別

我們也可以通過Excel中的公式直接計算IV值,如下:

風控業務-特征IV值和WOE值的計算原理和差別

計算公式為:

風控業務-特征IV值和WOE值的計算原理和差別
風控業務-特征IV值和WOE值的計算原理和差別

示例2:

如上圖所示,我們假設一個變量有5個類别,分布如下:

風控業務-特征IV值和WOE值的計算原理和差別

從上面的計算結果中我們可以看一下WOE的基本特點:

  • 目前分組中,1标簽比例越小,WOE值越大;
  • 目前分組WOE的正負,由目前分組0和1的比例決定,當0和1的比例相等時,WOE為0,如上圖的5類别;
  • WOE的取值範圍是全體實數。

WOE其實描述了變量目前這個分組,對判斷個體是否會響應(或者說屬于哪個類)所起到影響方向和大小,當WOE為正時,變量目前取值對判斷個體是否會響應起到的正向的影響,當WOE為負時,起到了負向影響。而WOE值的大小,則是這個影響的大小的展現。

從上面IV的計算結果我們可以看出IV的以下特點:

  • 對于變量的一個分組,這個分組的0标簽比例和1标簽比例與樣本整體0和1的比例相差越大,IV值越大,否則,IV值越小;
  • 極端情況下,目前分組的0标簽比例和1标簽比例和樣本整體的0和1的比例相等時,IV值為0;
  • IV值的取值範圍是[0,+∞),且,當目前分組中隻包含0标簽數量或者1标簽數量時,IV = +∞。

相關問題注意

1. 為什麼用IV而不是直接用WOE

從上面的内容來看,變量各分組的WOE和IV都隐含着這個分組對目标變量的預測能力這樣的意義。那我們為什麼不直接用WOE相加或者絕對值相加作為衡量一個變量整體預測能力的名額呢?

IV和WOE的差别在于IV在WOE基礎上乘以的那個(pyi-pni),我們暫且用pyn來代表這個值。第一個原因,當我們衡量一個變量的預測能力時,我們所使用的名額值不應該是負數。從這個角度講,乘以pyn這個系數,保證了變量每個分組的結果都是非負數,可以驗證一下,當一個分組的WOE是正數時,pyn也是正數,當一個分組的WOE是負數時,pyn也是負數,而當一個分組的WOE=0時,pyn也是0。

當然,上面的原因不是最主要的,因為其實WOE的絕對值也可以完全避免負數的出現。更主要的原因,也就是第二個原因是,乘以pyn後,展現出了變量目前分組中個體的數量占整體個體數量的比例,對變量預測能力的影響。即當各分組樣本分布不均勻時對其預測能力的影響。

2. 分類中某一類數量為0

當樣本中為0正例或0負例時,時 IV 值是+∞,這兩個極端都是沒有意義的,不能與正常 IV進行比較;

如下表,當類别3中1标簽數量為0時,計算錯誤

風控業務-特征IV值和WOE值的計算原理和差別

當類别3中1标簽數量為0.01時,

風控業務-特征IV值和WOE值的計算原理和差別

當類别3中1标簽數量為0.00000000000001時,

風控業務-特征IV值和WOE值的計算原理和差別

其中ln函數曲線為下圖,是以當 “1标簽比例” 越小,WOE值越大,直接導緻IV值越大:

風控業務-特征IV值和WOE值的計算原理和差別

解決方法:

1.如果可能,直接把這個分組做成一個規則,作為模型的前置條件或補充條件;

2.重新對變量進行離散化或分組,使每個分組的響應比例都不為0且不為100%,尤其是當一個分組個體數很小時(比如小于100個),強烈建議這樣做,因為本身把一個分組個體數弄得很小就不是太合理。

3.如果上面兩種方法都無法使用,建議人工把該分組的響應數和非響應的數量進行一定的調整。如果響應數原本為0,可以人工調整響應數為1,如果非響應數原本為0,可以人工調整非響應數為1,如下表:

風控業務-特征IV值和WOE值的計算原理和差別

3. 除非分組規則改變,組間的先後排序和目标變量的對調都不會影響IV 值;

風控業務-特征IV值和WOE值的計算原理和差別

如上圖随機調整分類類别的順序,IV值的計算結果不變。

4. 不同的分組方式對IV值有影響

同一批資料,分别分2組,5組,20組對比計算的IV值,檢視分組對IV值的影響。

分成2組,計算IV值為:

風控業務-特征IV值和WOE值的計算原理和差別

分成5組,計算IV值為:

風控業務-特征IV值和WOE值的計算原理和差別

分成20組,計算IV值為:

風控業務-特征IV值和WOE值的計算原理和差別

劃分越大,相當于這個變量資訊粒度變得越粗,表達能力下降(被平均),整體的IV降低;劃分的越小,每個小段與整體的差異越大,導緻整體的IV變大。是以IV值會随着分箱數的變多而增長,但是如果分箱數量過多,比如大于20個分箱會導緻每個分箱中樣本數量太少,導緻某個分箱幾乎沒有 “1标簽” 的樣本或者是幾乎沒有 “0标簽” 樣本。

       但是分組數量越多,IV值越大,并不意味着這個變量越好,IV值的具體表現要結合woe值進行判斷。當我們算完woe的時候,我們關注的點一般會有woe是否單調、woe是否呈線性、以及IV值的大小,由于評分卡通常采用線性分類器Logistics Regression,入模資料最好呈現單調性。

是以,在計算出每個分箱的WOE值後,需同時校驗訓練資料和測試的WOE是否呈現單調性,若非單調且在業務中無法解釋(如随着年齡的增長,體能的變化呈現“n”形),需要修改或合并分箱,進而使WOE呈現單調。如上表中的變量在分成20組後WOE依然呈現單調性:

風控業務-特征IV值和WOE值的計算原理和差別

一個好的變量分組不僅要求woe單調,還有其他限制,如下:

風控業務-特征IV值和WOE值的計算原理和差別

針對分箱數量,一般來說10~20個分箱足夠了,因為每個分箱應保證不少于5%的樣本數。分箱數量決定了平滑程度,分箱數越少平滑度越高。是以一般采用先精細分箱(fine classing),初始将箱數分成20~50個箱,然後進行粗分箱(coarse classing),利用IV值、基尼系數、卡方統計量等值将箱數合并,通常最多10箱。目的是通過建立更少的箱子來實作簡化,每個箱子具有明顯不同的風險因子同時最小化資訊損失。

如果缺失值有預測能力,則将缺失值單獨分作一箱或者是合并到擁有相似風險因子的分箱中去。為什麼不分1000箱?更少的箱數能夠捕捉到資料中的重要模式,同時忽略噪聲。當某一分箱中樣本數少于5%,則該箱可能不是資料分布的一個真實反映,也可能導緻模型不穩定。

如果強制變量分箱的WOE單調性,這樣可能就會低估某些非線性變量的IV值,如U型變量為非線性,但是分組合理。是以,為了盡可能使得IV值計算最大,同時盡可能保證分箱的單調性(讓預測變量對目标變量有更好的解釋性),要選擇對比合适的分箱方法。分箱的方法有很多,有等寬分箱,等頻分箱,聚類分箱,卡方分箱,還可以利用決策樹的資訊增益最大化思想來實作變量的最優分箱。

具體的幾種分箱方法可以參考:https://blog.csdn.net/carrylvan/article/details/108775507

參考連結:https://blog.csdn.net/kevin7658/article/details/50780391/

參考連結:https://zhuanlan.zhihu.com/p/78809853

參考連結:https://www.cnblogs.com/wqbin/p/10547628.html

參考連結:https://zhuanlan.zhihu.com/p/36539125