天天看點

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

一、為什麼寫這篇文章

    在面試中,我常問的一個問題是IV和PSI分别怎樣計算以及他們之間有什麼聯系。問題的前半部分不少候選人能夠熟練的答出來來,但是後半部分就鮮有人能給出另人滿意的答案了。

    網絡上有不少這兩個名額的介紹,有些文章同時介紹了這兩個名額卻隻口未提兩個名額是如此相似。是以,想寫一篇文章介紹一些類似名額的差別和聯系。

    提前透漏一點,這些名額名額有一個共同點,那就是它們都是對兩個機率分布的差異性的衡量,具體的内容會在後文中詳細介紹。

二、涉及的四個名額

IV 值(Information Value)常用來評估變量的預測能力;

PSI(Population Stability Index )常作為變量時間穩定性的名額;

相對熵又稱做KL散度(Kullback-Leibler divergence),是兩個機率分布間差異的非對稱性度量;

交叉熵(Cross Entropy)也是度量兩個機率分布間的差異性資訊,常用在自然語言進行中。

【以上四個名額我們在下文中分别簡稱做:IV、PSI、KL、CE。】

三、名額計算方式

    上面四個名額的計算方式,網絡上有詳細的介紹,本文不再進行重複,而采取一種統一而簡介的公式,不一定嚴謹但有助于發現這些名額的差別和聯系。

1.IV:

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示:變量值為xi的響應客戶占所有響應客戶的比例、變量值為xi的未響應客戶占所有未響應客戶的比例。

2.PSI

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示:變量取值為xi的模型實施群體占所有模型實施群體的比例、變量取值為xi的模型發展群體占所有模型發展群體的比例

3.KL

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示:邊際機率分布p中x=xi的機率,邊際機率分布q中x=xi的機率

4.CE

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示:邊際機率分布p中x=xi的機率,邊際機率分布q中x=xi的機率

四、名額比較

1.可以看到IV和PSI的計算方式完全相同,他們計算的都是兩個邊際分布的分布差異。IV值計算的是好客戶和壞客戶的分布差異,差異越大說明該變量的預測能力越強;而PSI計算的是遠期客戶和近期客戶的分布差異,理論上兩個分布應該很接近,但因為外部環境的變化等種種原因,變量的分布有時會随時間而發生偏移,在模組化中有時會剔除PSI較高的變量來使模型的預測能力不會随時間推移而出現快速下降。

2.比較IV和KL可以發現,其實IV=KL(p,q)+KL(q,p)。其中KL是個不對稱的分布差異度量,即比較兩個分布的差異時,以p為基準和以q為基準的結果是不同的,而IV值是将兩個基準的結果和,是以IV是一個對稱的衡量名額。

3.比較CE和KL的差别可以推導出,CE = KL(p, q) - H(p),即CE是KL散度減去一個資訊熵。

五、總結

    通過比較名額計算方法的異同,可以看出這幾個名額還是有非常緊密的聯系的,它們都可以用來度量兩個分布的差異,同時也有各自的特色,因為這些特色,不同的名額可能因為計算的便利、度量的對稱性等而在某個場景下有特定的優勢。

繼續閱讀