IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

2023-05-09 17:32:27

一、為什麼寫這篇文章

在面試中，我常問的一個問題是IV和PSI分别怎樣計算以及他們之間有什麼聯系。問題的前半部分不少候選人能夠熟練的答出來來，但是後半部分就鮮有人能給出另人滿意的答案了。

網絡上有不少這兩個名額的介紹，有些文章同時介紹了這兩個名額卻隻口未提兩個名額是如此相似。是以，想寫一篇文章介紹一些類似名額的差別和聯系。

提前透漏一點，這些名額名額有一個共同點，那就是它們都是對兩個機率分布的差異性的衡量，具體的内容會在後文中詳細介紹。

二、涉及的四個名額

IV 值（Information Value）常用來評估變量的預測能力；

PSI（Population Stability Index ）常作為變量時間穩定性的名額；

相對熵又稱做KL散度（Kullback-Leibler divergence），是兩個機率分布間差異的非對稱性度量；

交叉熵（Cross Entropy）也是度量兩個機率分布間的差異性資訊，常用在自然語言進行中。

【以上四個名額我們在下文中分别簡稱做：IV、PSI、KL、CE。】

三、名額計算方式

上面四個名額的計算方式，網絡上有詳細的介紹，本文不再進行重複，而采取一種統一而簡介的公式，不一定嚴謹但有助于發現這些名額的差別和聯系。

1.IV：

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示：變量值為xi的響應客戶占所有響應客戶的比例、變量值為xi的未響應客戶占所有未響應客戶的比例。

2.PSI

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示：變量取值為xi的模型實施群體占所有模型實施群體的比例、變量取值為xi的模型發展群體占所有模型發展群體的比例

3.KL

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示：邊際機率分布p中x=xi的機率，邊際機率分布q中x=xi的機率

4.CE

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

其中p(xi)和q(xi)分别表示：邊際機率分布p中x=xi的機率，邊際機率分布q中x=xi的機率

四、名額比較

1.可以看到IV和PSI的計算方式完全相同，他們計算的都是兩個邊際分布的分布差異。IV值計算的是好客戶和壞客戶的分布差異，差異越大說明該變量的預測能力越強；而PSI計算的是遠期客戶和近期客戶的分布差異，理論上兩個分布應該很接近，但因為外部環境的變化等種種原因，變量的分布有時會随時間而發生偏移，在模組化中有時會剔除PSI較高的變量來使模型的預測能力不會随時間推移而出現快速下降。

2.比較IV和KL可以發現，其實IV=KL(p,q)+KL(q,p)。其中KL是個不對稱的分布差異度量，即比較兩個分布的差異時，以p為基準和以q為基準的結果是不同的，而IV值是将兩個基準的結果和，是以IV是一個對稱的衡量名額。

3.比較CE和KL的差别可以推導出，CE = KL(p, q) - H(p)，即CE是KL散度減去一個資訊熵。

五、總結

通過比較名額計算方法的異同，可以看出這幾個名額還是有非常緊密的聯系的，它們都可以用來度量兩個分布的差異，同時也有各自的特色，因為這些特色，不同的名額可能因為計算的便利、度量的對稱性等而在某個場景下有特定的優勢。

IV、PSI、相對熵、交叉熵——【機率分布的差異度量名額介紹】

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普