天天看點

不能不知—小微最常見的兩大場景模型

作者:番茄風控大資料宣

12月8日,翻開今年的月曆,2021還有半個多月即将過去了,最後一個月不到的時間讓我們抓住剩餘的時間尾巴,好好過一個精彩(摸魚)的12月。

番茄風控近期開播了小微風控的内容,近期跟星球的同學交流,大家比較感興趣在小微模型,今日跟大家分享在小微風控上的兩大模型:營收預估模型與逾期預測模型。

一.營收預估模型

1.1.模型背景

在企業的經營場景中,我們總是希望利用企業曆史的經營資料去預測未來的經營情況。比如在用過去2~3年的資料預測未來1年的實際營業額,于是基于這樣的場景需求,我們就有了營收預估模型的内容。

在營收預估類的模型中,我們一直有兩大類算法在使用,一個是線性回歸類模型,另一個是ARIMA模型(時間序列分析模型),這兩類模型預估營收上有些不同,具體請看以下内容:

1.2.模型場景的比較:

對于營業額預估不同的趨勢預測使用的模型不一樣,以實際的檢驗的方法去找出最适合企業的營業額預測的一個方法,ARIMA模型(時間序列分析)在營業額波動性比較大的企業比較适合。

線性回歸模型在營業額趨勢比較明顯的企業比較适合,在用過去2~3年的資料預測過去1年的實際營業額,我們使用實際資料去校驗模型的準确性,來選擇合适的模型進行實際未來1年營業額的預測。

在實際的小微資料的預估中,實際測試下來,我們總結了以下的規律:

30%的企業适合時間序列模型,

30%的企業适合線性回歸模型,

剩餘40%經營平穩的企業更适合移動平均的估計。

在對預測方法在實際資料中測試在選擇後,超過80%的客戶準确率都能控制在誤差正負20%以内,預測10個客戶裡面有8個預測100萬,上下浮動不超過百分之二十,上不超過120w,下不低于80w。實際的資料測試,測試出來的準确度是符合業務生産需求的。

1.3.模型涉及字段:

不能不知—小微最常見的兩大場景模型

1.4.預測結果對比

ARIMA模型整體預測誤差率在每個百分位點值均小于線性回歸,可見ARIMA模型對營收預測更準确;

ARIMA預測準确率:92.3%;

線性回歸預測準确率:89.4%;

不能不知—小微最常見的兩大場景模型

二.逾期預測模型

2.1.模型背景

逾期機率預測其針對的客戶基本上就是非銀或者銀行,預測的是他貸了一筆款以後,最後還不出貸款的機率是多少。

這個應用了很多資料,比如企業基本資訊、成立年限、注冊資本、工商司法、報稅銷售額,這些資訊全部綜合在一起,通過這些資訊去預測它最後貸款會不會違約的機率,這個主要是用邏輯回歸

2.2.模型的輸出模型

客戶逾期機率[0-1]

比如通過逾期模型,預估出廣東某有限責任公司,貸款逾期機率0.00051,逾期風險較低。

通過逾期機率的預估,我們判斷出逾期的機率情況,并且逾期的情況仍可以通過劃分區間等級。

2.3.模型涉及字段:

不能不知—小微最常見的兩大場景模型

【節選部分字段】

2.4.預測結果對比

結合我們之前的開發資料情況,通過之前的一些模型資料統計,在訓練樣本的預測上模型的結果參考名額:

不能不知—小微最常見的兩大場景模型

以上模型參考的來自于企業納稅資料(國稅局),企業的納稅适用範圍在年銷售額億萬級别,産品幅度可達100萬。

在小微風控模型上除了以上兩大常見的模型外,另外還有:

③經營欺詐模型

④提款率(餘額)預測模型

其中經營欺詐模型就是基于客戶開票資訊,來預測客戶虛假經營的風險;而餘額預測模型基于曆史申請客戶實際提款情況,結合企業基本資訊、工商資訊、财稅資訊來預測餘額和提款率的模型,剩餘的兩部分後續有機會再跟大家介紹。

關于本次提到的,幾大小微風控相關的模型,更詳細的内容關注:《第二期小微風控訓練營》,本次訓練營我們又更新了小微企業的模型+企業征信相關的内容:

不能不知—小微最常見的兩大場景模型

另外在本文中涉及的企業征信納稅字段,本次也有相關内容在知識星球平台供大家學習,可以到上面查收。

不能不知—小微最常見的兩大場景模型
不能不知—小微最常見的兩大場景模型
不能不知—小微最常見的兩大場景模型

~原創文章

...

end