天天看點

大資料風控名額----查準率與查全率

2016-03-24 大林

先說個例子,申請人有400個,其中有160個是好人,240個是壞人。我們用一個模型A,挑出了100個好人,其中真正的好人是80個,剩下20個是漏網之魚。

我們定義一個“查準率”(precision),為挑出來的好人中,真正是好人的比例。即: 

大資料風控名額----查準率與查全率

同時,我們定義一個“查全率”(recall),為查出來的好人占總的好人的比例。即:

大資料風控名額----查準率與查全率

“查準率”和“查全率”是一對沖突的概念。通俗來講,要想“查準率”高,要把标準卡的嚴苛一些(模型的分數門檻值取的高些,讓絕大多數申請人都判斷為壞人,隻有極少數特别好的人判斷為好人)。但同時,因為通過的人較少,占總的好人的比例必然降低。即,“查全率”會降低,更多的好人被誤判為壞人了。

反過來,如果标準卡的松些,更多的好人被挑了出來,“查全率”提高了。但是,漏網之魚也更多了,“查準率”自然會降低。

“通過率”和“壞賬率”是風險控制上的術語,而“查準率”和“查全率”是機器學習的專業資料。他們表達的意思是一緻的,但具體的含義是不同的。

“壞賬率”的意思是,判斷為好人的群體中,真正的壞人所占的比例。即:

大資料風控名額----查準率與查全率

可見

大資料風控名額----查準率與查全率

即“壞賬率”與“查準率”的和就是100%,兩個名額隻是從正反兩個反面來考察同一個實體意義。

“通過率”為模型判斷為好人的人數占總人數的比例,即

大資料風控名額----查準率與查全率

本例中,通過率為100/400=25%。

為什麼業内很少用“查全率”,而用“通過率”這個概念呢?

這是因為,在真實的業務中,我們拒絕掉的那一部分申請中,有多少是好人,我們是不清楚的,是以“查全率”的概念,隻能在模型訓練的時候使用(訓練的用例都是已知結果的)。而“通過率”則可以直接度量,簡單易算。從實體意義上将,兩者度量的目标是一緻的。

談起一家金融公司的風控能力,外行往往隻談論“壞賬率”這一個名額。這是不全面的。不過作為第三方,誰又關心它的“通過率”呢?尤其是以這樣的資産理财的人,巴不得壞賬率為零,自己遭受損失的風險是最小的。但從内控來講,風控部門的人員,是希望“壞賬率”降低的,這提現了他們的風控能力是很強的,并且他們的收入,往往也跟壞賬是挂鈎的。

但是,如果“壞賬率”很小了,“通過率”也很小,金融公司均攤到單個成交客戶上的運作成本就很高。在真實的業務中,擷取客戶和稽核客戶都是有很高的成本的。如果沒有成交,這些成本都白費了。業務人員的績效中,也往往以成交作為度量的,成交越多,每月領的薪水就越多。是以從業績的考慮,業務人員是有動力希望“通過率”變高的。

另外,“通過率”還會影響使用者的體驗。如果申請的貸款被拒絕的比例很高,客戶很可能費了很多功夫,卻不能借到錢,怨氣就會很大,使用者體驗變差。但如果“通過率”很高,往往意味着風控能力比較弱,騙子們就會紮堆來鑽空子,造成“壞賬率”的急劇增高。

是以,“通過率”和“壞賬率”這一對沖突的名額,是金融公司業務部門與風控部門鬥争的直覺展現。而最終的結果,往往是兩者之間的平衡,即在一定的壞賬率範圍内,争取更高的“通過率”,在一定的“通過率”的情況下,讓“壞賬率”盡量更低。這個平衡,不僅對内部的管理非常重要,也對公司的金融産品設計和使用者體驗有重大的影響。

繼續閱讀