1、風控系統部分
1.Blaze
blaze是FICO公司産品,用于規則管理,是模型ABC卡開發的前身。信貸公司開始放貸時,資料量少,申請使用者少,難以建立模型。是以前期一般會用到專家經驗判斷好壞客戶,然後通過風控決策管理系統進行高效作業,其中blaze就是一款應用多年,效率較高風控決策管理系統。但blaze屬于商業産品,一般多應用于大銀行,捷信等大型消費金融公司,收費可高于100萬RMB每年,如果需要更多定制業務,收費更高。
1.1 A card
釋義:Application scorecard 申請評分卡,對授信階段送出的資料指派的規則。
舉例:“進件”是傳統銀行的說法,指申請單。評分卡是對一系列使用者資訊的綜合判斷。随着可以收集到的使用者資訊變多,授信決策者不再滿足于簡單的if、else邏輯,而是希望對各個資料賦予權重和分值,根據使用者最後綜合得分判斷風險,通過劃定分數線調整風險容忍度,評分卡應運而生。評分卡是邏輯回歸算法的一種衍生。
1.2 B card
釋義:Behavior scorecard 行為評分卡,對貸後可以收集到的使用者資訊進行評分的規則。
舉例:與
A
卡類似,B卡也是一套評分規則,在貸款發放後,通過收集使用者拿到錢後的行為資料,推測使用者是否會逾期,是否可以繼續給該使用者借款。例如使用者在某銀行貸款後,又去其他多家銀行申請了貸款,那可以認為此人資金短缺,可能還不上錢,如果再申請銀行貸款,就要慎重放款。B卡模型中,有很多存量管理的子模型,包括激活沉默客戶模型,找出價值較高客戶,增加貸款額度模型等等。
1.3 C card
釋義:Collection Scorecard 催收評分卡,對已逾期使用者未來出催能力做判斷的評分規則。舉例:催收評分卡是行為評分卡的衍生應用,其作用是預判對逾期使用者的催收力度。對于信譽較好的使用者,不催收或輕量催收即可回款。對于有長時間逾期傾向的使用者,需要從逾期開始就重點催收。逾期天數越多,催收難度越大。
催收一般分為多個坐席,M1,M2,M3等不同坐席員工經驗和業務能力相差甚大。AI人工智能常用于前期自動化催收。
申請評分卡、行為評分卡和催收評分卡常合并稱為“ABC卡”,應用在貸前、貸中和貸後管理。。。。。。。。
2、風控名額部分
- 1 Aging Analysis
釋義:賬齡分析。顯示各期至觀察點為止的延滞率,其特點為結算終點一緻,把分散于各個月的放貸合并到一個觀察時間點合并計算逾期比率。
- 2 Vintage Analysis
釋義:統計每個月新增放款在之後各月的逾期情況,同樣也是賬齡分析。與aging analysis不同,vintage以貸款的賬齡為基礎,觀察貸後N個月的逾期比率。也可用于分析各時期的放貸後續品質,觀察進件規則調整對債權品質的影響。舉例:Deliquency Vintage 30+:表現月逾期30+剩餘本金/對應賬單生成月發放貸款金額。風控中英文術語手冊(銀行_消費金融信貸業務)_v4_術語手冊
- 3 C 、M
釋義:C和M是描述逾期期數bucket的專有名詞。M0為正常資産,Mx為逾期 x 期,Mx+為逾x期(含)以上。無逾期正常還款的bucket為M0,即C,M1即逾1期(1-29天) 。M2+即逾2期及以上(30+) 。M2和M4是兩個重要的觀察節點,一般認為M1為前期,M2-M3為中期,M4以上為後期,大于M6的轉呆賬。
- 4 Delinquency
釋義:逾期率/延滞率。評價資産品質的名額,可分為Coincident和Lagged兩種觀察方式。
- 5 Coincident
釋義:即期名額。用于分析當期所有應收賬款的品質,計算延滞率。計算方式是以當期各bucket延滞金額除以本期應收賬款(AR)總額。Coincident是在目前觀察點總覽整體,是以容易受到當期應收賬款的高低導緻波動,這适合業務總量波動不大的情況下觀察資産品質。舉例:常看的一個名額Coincident DPD 30+
- 6 Lagged
釋義:遞延名額。與coincident相同也是計算延滞率的一個名額,差別是lagged的分母為産生逾期金額的那一期的應收賬款。Lagged觀察的是放貸當期所産生的逾期比率,是以不受本期應收賬款的起伏所影響。舉例:Lagged DPD 30+$(%)= Lagged M2+Lagged M3+Lagged M4+Lagged M5+Lagged M6
月末資産餘額M1(1-29天): 統計月份月末資産中滿足 1≤目前逾期天數≤29 的訂單剩餘本金總和,目前逾期天數為訂單目前最大逾期天數,不包含壞賬訂單。Lagged M1 =月末M1的貸款餘額/上個月底的貸款餘額(M0~M6)
風控中英文術語手冊(銀行_消費金融信貸業務)_v4_風控_02
- 7.0 PD(Past Due)
例如FPD1,SPD7,TPD30…前面的字母,F:first,表示第一期逾期,同理 S,T,Q分别表示二 三 四, 後面會用數字表示。如5PD30。後面的數字, 指逾期天數,如果一個客戶身上有FPD30的标記,那必然有FPD1 FPD7等小于30的标記。dpd(days past due)逾期天數,貸放型産品自繳款截止日(通常為次一關賬日)後一天算起。4期中,任意一期逾期天數超過30天就算壞客戶
需注意的一點,PD類名額通常互斥,也就是說一個人如果有了FPD标志就不會有SPD标志,SPD表示第一期正常還款但是第二期才出現逾期的客戶。
- 7 DPD
釋義:Days Past Due 逾期天數,自還款日次日起到實還日期間的天數。舉例:DPD7+/30+,大于7天和30天的曆史逾期。業内比較嚴格的逾期率計算公式為:在給定時間點,目前已經逾期90天以上的借款賬戶的未還剩餘本金總額除以可能産生90+逾期的累計合同總額。其分子的概念是,隻要已經産生90天以上逾期,那麼未還合同剩餘本金總額都視為有逾期可能,而分母則将一些借款賬齡時間很短的,絕對不可能産生90+逾期的合同金額剔除在外(比如隻在2天前借款,無論如何都不可能産生90天以上逾期)。
- 8 FPD
釋義:First Payment Deliquency,首次還款逾期。使用者授信通過後,首筆需要還款的賬單,在最後還款日後7天内未還款且未辦理延期的客戶比例即為FPD 7,分子為觀察周期裡下單且已發生7日以上逾期的使用者數,分母為當期所有首筆下單且滿足還款日後7天,在觀察周期裡的使用者數。常用的FPD名額還有FPD 30。舉例:假設使用者在10.1日授信通過,在10.5日通過分期借款産生了首筆分3期的借款,且設定每月8日為還款日。則11.08是第一筆賬單的還款日,出賬日後,還款日結束前還款則不算逾期。如11.16仍未還款,則算入10.1-10.30周期的
風控中英文術語手冊(銀行_消費金融信貸業務)_v4_銀行_03
FPD7的分子内。通常逾期幾天的使用者可能是忘了還款或一時手頭緊張,但FPD 7 名額可以使用者來評價授信人群的信用風險,對未來資産的健康度進行預估。與FPD 7 類似,FPD 30也是對使用者首筆待還賬單逾期情況進行觀察的名額。對于逾期30天内的使用者,可以通過加大催收力度挽回一些損失,對于逾期30天以上的使用者,催收回款的幾率就大幅下降了,可能進行委外催收。如果一段時間内的使用者FPD 7較高,且較少催收回款大多落入了FPD 30 内,則證明這批使用者群的non-starter比例高,借款時壓根就沒想還,反之則說明使用者群的信用風險更嚴重。
- 9 Cpd30mob4
cpd用于催收模型,是催收名額,還款表現第四個月月末時點逾期是否超過30天,不包括曆史
- 0 maxdpd30_mob4
四個觀察期(月)内,逾期是否超過30天,包括曆史
- 1 MOB在賬月份
放款後的月份舉例:MOB0,放款日至當月月底
MOB1,放款後第二個完整月份
MOB2,放款後第三個完整月份
mob3-3個月為短觀察期,mob6-6個月為長觀察期
- 2 Flow Rate
釋義:遷徙率。觀察前期逾期金額經過催收後,仍未繳款而繼續落入下一期的幾率。舉例:M0-M1=M月月末資産餘額M1 / 上月末M0的在貸餘額
8月M0-M1 :8月進入M1的貸款餘額 / 8月月初即7月月末M0的在貸餘額
補充資訊:宏觀經濟中
短期風險可以使用FDP,SPD,TPD進行衡量;中期風險可以使用[email protected];長期風險使用[email protected]等
To measure the short-term risk, FPD,SPD,TPD could be used; To measure the middle-term risk, [email protected] could be used; To measure the long-term risk, [email protected] could be used;
不同産品應用不同名額
Fpd30(現金貸産品)
maxdpd30_mob4 (存量客戶)
Cpd30mob4(催收客戶)
汽車貸壞客戶定義(僅做參考)
風控中英文術語手冊(銀行_消費金融信貸業務)_v4_銀行_04
說明:由于場景細分,不同場景差異化較大,以上名額說明僅做參考。
3.3 RPC:Right Public Concact,能有效的聯系人,通過電話催收可以找到的客戶本人或直屬親屬。
3.4 PDP: Promise To Pay,承諾在某個前線内歸還一定金額的欠款。
3.5 inptp :是否在承諾還款期限内,以最新一次覆寫為準。
3.6 入催:特指進入待催任務清單,不一定與逾期天數逾期金額相關,如寬限隊列,強制入催。
3.7 出催:特征退出待催任務清單,退出條件與入催原因相關。
3.8 降期:指歸還部分逾期欠款,滿足逾期天數最高的賬單或合同金額,降至下一級逾期階段,如M3降至M2,在多賬單多産品合同産品中常見。
3.9 隊列:催收分案專用名詞,比如内催隊列、委外隊列、寬限隊列、外訪隊列,對應相應的催收手段。
4.0貸後員工效能名額
4.0.1營運名額
覆寫率:檔期完成跟進客戶數/當日需跟進客戶數
投訴率:定性為有效投訴的客戶數/在催客戶數
PTP率(下P率):獲得承諾還款客戶數/在催客戶數
跟P率:P期結束當天有跟進記錄客戶數/承諾應還款客戶數(也可選擇統計P期期間有跟進記錄的為分子)
KPTP率:兌現承諾次數/承諾諾還款次數
人均在案:待催客戶數/催收員數量
4.0.2呼叫名額
外呼電話通數/外呼電話時長
工時使用率:外呼電話時長/線上時長(工作時長)
接通率:外呼接聽次數/ 外呼次數
有效通話時長:外呼通常接聽動作後時長
平均通話時長:總通話時長/出勤日數量
呼損率:呼通但接聽失敗的通數/外呼電話通數
5.貸後監控名額
失聯率:三種定義方向,外呼結果、催收表示、規則定義
短信成功率:短信發送成功數量/短信發送數量
批扣成功率:批扣成功數量/批扣客戶數
新增逾期率:逾期客戶數/到期客戶數(剔除已提前結清)
留存率:T+N日仍在催客戶數(金額)/T日入催客戶數(金額)
惡意拖欠率:放款後90天以上無任何還款記錄人數/放款人數(金額)
3、風控模型部分
3.1 Benchmark釋義:基準。每個版本的新模型都要與一個線上的基準模型或規則集做效果比對。
3.2 IV釋義:information
value 資訊值,也稱VOI,value of
information,取值區間(0,1)。該值用來表示某個變量的預測能力,越大越好。金融風控篩選變量門檻值為0.02。如果變量的iv低于0.02,那麼變量就會被踢除。我作為模型專家提醒大家,iv值不能死記硬背,需要根據自己場景資料分布特點來定制門檻值。不同場景變量iv值分布差異可能較大,例如放貸,車貸和現金貸。
3.3 K-S value釋義:K-S指klmogrov-smirnov,這是一個區隔力名額。所謂區隔力,是指模型對于好壞客戶的區分能力。K-S值從0-1,越大越好,越小越差。真實場景中風控領域的模型ks能超過0.4的很少。
3.4 PSI
釋義:population
stability
index,穩定度名額,越低越穩定。用于比較目前客群與模型開發樣本客群差異程度,評價模型的效果是否符合預期。PSI越接近0,模型穩定性越好。當PSI小于0.1時表示模型比較穩定,當psi在0.1和0.25之間時模型穩定性出現波動,需要檢查模型,如果必要,需要重新開發模型。
3.6 Logloss
釋義:對數損失函數
當預測機率接近1時,對數損失緩慢下降。但随着預測機率的降低,對數損失迅速增加。對數損失值越大時,模型精确度越差,反之亦然。
3.7 Training Sample
釋義:模組化樣本,用來訓練模型的一組有表現的使用者資料。配合該樣本還有off-time sample(驗證樣本),兩個樣本都取同樣的使用者次元,通常要使用模組化樣本訓練出的模型在驗證樣本上進行驗證。
3.8 WOE釋義:weight
of
ecidence,證據權重,取值區間(-1,1)。違約件占比高于正常件,WOE為負數。絕對值越高,表明該組因子區分好壞客戶的能力越強。評分卡模型的資料需要把原始資料轉換為woe資料,進而減少變量的方差,使其平滑。IV值也是由woe值轉換而來。由于woe在評估變量時有一定缺陷,是以一般用iv值評估變量重要性。
3.9 Bad Capture Rate
釋義:壞使用者捕獲率。這是評價模型效果的一個名額,比率越高越好。舉例:Top 10% Bad Capture Rate是指模型評估出的最壞使用者中的前10%使用者,在樣本中為壞使用者的比率。
3.10 Population釋義:All Population,全體樣本使用者,包含模組化樣本與驗證樣本。
3.11 Variable釋義:變量名。每個模型都依賴許多的基礎變量和衍生變量作為入參。變量的命名需要符合規範,易于了解和擴充。模組化前變量是需要篩選的。大資料模型中,百分之90%以上變量是噪音變量。真正有用變量是其中極少部分。
3.12 CORR釋義:相關系數。Corr的絕對值越接近1,則線性相關程度越高,越接近0,則相關程度越低。相關系數計算要看資料分布,如果資料呈現正太分布,用皮爾森方法準确率較高;反之用斯皮爾曼方法更合适。
3.13 混淆矩陣confusion matrix
sensitivity:真陽性條件下,測試也是陽性
specificity:真陰性條件下,測試也是陰性
FALSE positive:真陰性條件下,測試卻是陽性
FALSE negative:真陽性條件下,測試卻是陰性
3.14 模型算法
邏輯回歸(logistic regression)
logistic回歸是一種廣義線性回歸(generalized
linear model),是以與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有
w‘x+b,其中w和b是待求參數,其差別在于他們的因變量不同,多重線性回歸直接将w‘x+b作為因變量,即y
=w‘x+b,而logistic回歸則通過函數L将w‘x+b對應一個隐狀态p,p =L(w‘x+b),然後根據p
與1-p的大小決定因變量的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。
評分卡模型(scorecard model)評分卡模型是邏輯回歸算法的一個衍生算法。應用woe分箱和分數拉伸技術,把邏輯回歸機率分轉換為标準分。标準分類似FICO分數或芝麻信用分數,範圍從300分-900分。下圖為評分卡計分模式
評分卡相關教程入口1(推薦)
https://ke.qq.com/course/3063615?tuin=dcbf0ba
評分卡相關教程入口2
https://study.163.com/course/courseMain.htm?courseId=1005214003&share=2&shareId=400000000398149
支援向量機(Support Vector Machine, SVM)
支援向量機(Support
Vector Machine, SVM)是一類按監督學習(supervised
learning)方式對資料進行二進制分類的廣義線性分類器(generalized linear
classifier),其決策邊界是對學習樣本求解的最大邊距超平面(maximum-margin
hyperplane)。SVM被提出于1964年,在二十世紀90年代後得到快速發展并衍生出一系列改進和擴充算法,在人像識别、文本分類等模式識别(pattern
recognition)問題中有得到應用。支援向量機算法在小樣本資料效果較好,訓練大資料時耗時較長。
神經網絡( Neural network )
邏輯性的思維是指根據邏輯規則進行推理的過程;它先将資訊化成概念,并用符号表示,然後,根據符号運算按串行模式進行邏輯推理;這一過程可以寫成串行的指令,讓計算機執行。然而,直覺性的思維是将分布式存儲的資訊綜合起來,結果是忽然間産生的想法或解決問題的辦法。這種思維方式的根本之點在于以下兩點:1.資訊是通過神經元上的興奮模式分布存儲在網絡上;2.資訊處理是通過神經元之間同時互相作用的動态過程來完成的。
注意:計算機神經網絡和人腦生物神經網絡運作原理是不同的。
有點:處理大資料高效,可處理複雜和多元資料,靈活快速
缺點:資料需要預處理
xgboost
XGBoost是一個優化的分布式梯度增強庫,旨在實作高效,靈活和便攜。它在
Gradient Boosting
架構下實作機器學習算法。XGBoost提供并行樹提升(也稱為GBDT,GBM),可以快速準确地解決許多資料科學問題。相同的代碼在主要的分布式環境(Hadoop,SGE,MPI)上運作,并且可以解決數十億個示例之外的問題。xgboost是內建樹算法,由陳天奇發明,該算法在kaggle競賽多次奪冠
lightgbm
Light Gradient Boosted Machine,簡稱LightGBM,是一個開源庫,提供了梯度提升算法的高效實作,微軟公司開發算法,綜合性能優于xgboost。
LightGBM 通過添加一種自動特征選擇以及專注于具有更大梯度的提升示例來擴充梯度提升算法。這可以顯着加快訓練速度并提高預測性能。
與其他 boosting 相關架構相比,它具有以下優勢——
- 在不影響效率的情況下更快地訓練速度。
- 記憶體使用率也很低。
- 它提供了更好的準确性。
- 它支援并行和GPU兩種學習方式。
- 它具有處理大規模資料的能力。
catboost
俄羅斯搜尋巨頭Yandex宣布,将向開源社群送出一款梯度提升機器學習庫CatBoost。它能夠在資料疏的情況下“教”機器學習。特别是在沒有像視訊、文本、圖像這類感官型資料的時候,CatBoost也能根據事務型資料或曆史資料進行操作。
catboost特點:
少量或無需調參,預設參數效果非常好
支援分類變量
支援GPU
Ngboost
斯坦福 ML Group最近在他們的論文 Duan et al., 2019 中發表了一種新算法,其實作稱為 NGBoost。該算法通過使用自然梯度将不确定性估計包括在梯度提升中。
NGBoost 是一種新的提升算法,它使用自然梯度提升,一種用于機率預測的子產品化提升算法。該算法由基學習器、參數機率分布和評分規則組成。
xgboost,catboost,lightgbm,ngboost相關教程入口1(推薦)
入口2
4、風控基礎詞彙部分
4.1 APR
釋義:Annual percentage rate,年度百分率,一年一次複利計息的利率。nominal APR名義利率,effective APR實際利率。
4.2 AR
釋義:accounts receivable,當期應收賬款。
4.3 Application fraud
釋義:僞冒申請
4.4 Transaction fraud
釋義:欺詐交易
4.5 Balance Transfer
釋義:餘額代償,即信用卡還款業務。
4.6 Collection
釋義: 催收。根據使用者入催時間由短到長,分為Early collection(早期催收)、Front end(前段催收)、Middle
range(中段催收)、Hot core(後段催收)Recovery(呆賬後催收/壞賬收入)這幾個階段,對應不同的催收手段和頻率。
4.7 DBR
釋義:debit burden ratio,負債比。通常債務人的在各管道的總體無擔保負債不宜超過其月均收入的22倍。
4.8 Installment
釋義:分期付款
4.9 IIP
釋義: 計提的壞賬準備
4.10 PIP釋義:資産減值損失
4.11 NCL
釋義:net credit loss,淨損失率。當期轉呆賬金額減去當期呆賬回收即為淨損失金額。
4.12 Loan Amount
釋義:在貸總額
4.13 MOB
釋義:month on book 賬齡
舉例:MOB0,放款日至當月月底。MOB1,放款後第二個完整月份
4.14 Non-starter
釋義:惡意逾期客戶
4.15 Payday Loan釋義:發薪日貸款。無抵押的信用貸款,放款速度快,額度低,期限短但利率高。額度低和高利率是該模式的必要條件。
4.16 Revolving釋義:循環信用。提錢樂信用錢包給使用者的就是循環額度,相對應的還有醫美、教育類的專項額度。
4.17 WO釋義:Write-off ,轉呆賬,通常逾期6期以上轉呆賬。
4.18 AR
AR授信通過率=SUM(貸款申請通過賬戶)/SUM(申請賬戶)
4.19 DR
DR違約率=SUM(發生違約賬戶)/SUM(使用授信賬戶)
4.20 EAD
EAD授信敞口=SUM(C0+M1+M2+…+M6+)
4.21授信轉化率
授信轉化率=SUM(使用授信賬戶)/SUM(申請賬戶)
4.22延滞率/遞延率(flow through%)
計算可分為coincidental及lagged兩種方式,除了各bucket延滞率之外,也會觀察特定bucket以上的延滞率。如M2+lagged%及M4+lagged%等名額,以M2+lagged%為例,分母為兩個月前應收賬款,分子為本月M2(含)以上尚未轉呆賬的逾期金額。在消費金融風險管理上,M2及M4是兩個重要的觀測點,原因是客戶可能因為太忙或者忘記造成的賬款逾期,但是經過M1催收後依舊落入M2以上,可确認為無力繳款或蓄意拖欠。
4.23不良率(bad%)
bad的應用除了一般的風險分析外,信用評分模型的建置也需要實作确定bad定義。
一般bad的定義除了逾期戶、高風險賬戶等,目前以逾期戶為主。
4.24轉呆賬率(write-off%)
簡寫為wo%,當月轉呆賬金額/逾期開始月的應收賬款。經過年化之後,月轉呆賬率轉換為年損失率。
4.25淨損失率(NCL)
其定義為:當期轉呆賬金額-當期呆賬回收,亦即為淨損概念。就整體風險管理績效觀點來看,呆賬後回收亦為以重要一環,是以NCL%與WO%常常一并顯示。
4.26撥貸率
又稱撥貸比,是指撥備占總貸款的比例,撥貸率越高,說明該銀行的防禦壞帳風險能力越強。計算公式為:撥備餘額/貸款總額=撥備覆寫率*不良貸款率。
4.27撥備覆寫率
也稱撥備充足率,實際上是銀行貸款可能發生的呆、壞帳準備金的使用比例,撥備覆寫率是實際計提貸款損失準備對不良貸款的比率,該比率最佳為100%。計算公式為:貸款損失準備金/不良貸款餘額。
4.28不良貸款率
指金融機構不良貸款占總額貸款餘額的比重。不良貸款指在預估隐含貸款品質時,把貸款按風險基礎分為正常、關注、次級、可疑和損失5類,其中後3類合稱為不良貸款。計算公式:不良貸款率=(次級類貸款+可疑類貸款+損失類貸款)/各項貸款*100%=貸款撥備率/撥備覆寫率*100%。貸款撥備率和不良貸款率、撥備覆寫率是商業銀行業資産品質的三個基本名額。
4.29負債比(DBR)
負債比(debit burden ratio,DBR)是銀行關注的主要名額衡。量借款人還款壓力的常用名額,總無擔保債務歸戶後的總餘額(信用卡、現金卡、信用貸款)/平均月收入。
4.30 惡意延滞率(non-starter%)
原始定義為“貸後從未繳款客戶”,主要目的為找出惡性欺詐的案件。
4.31命中率(hit%)
用于信用卡的中途授信及早期預警報表,所謂命中率意指控管後一定期間内客戶發生延滞的幾率。命中率過低可能表示浮濫或風險判斷方向有誤。
4.32 可用餘額(OTB)
常與命中率名額一同出現,計算方式為先找出證明控管命中的客戶,再會整這些客戶遭控管時的信用卡可用餘額,此數字可視為銀行因控管而減少的損失。
4.33呆賬回收率
本期呆賬回收率=本期呆賬回收/本期轉呆賬金額
本期總呆賬回收率=本期呆賬回收/前期呆賬總餘額
本年呆賬回收率=本年度呆賬總回收金額/本年度平均呆賬餘額
近12期呆賬回收率=近12期呆賬回收總金額/近12期平均呆賬餘額
轉呆賬後12期回收率=轉呆賬後12期總回收金額/轉呆賬後12期平均呆賬
餘額
5.資料字典
client_no:客戶賬戶
apply_time:申請時間
gender:性别
age:年齡
income_range:收入範圍
education:教育程度;
carreer:工作;
credit_score:信用分數;
credit_score_range:信用分數範圍;
if_approved:是否通過;
prob_df:可能違約機率;
if_due:是否逾期;
used_time:貸款使用次數;
credit_approved:授信通過金額
5.金融風控模組化實戰經典教學案例
5.1 德國銀行信用資料集(German credit)
5.2 kaggle模型競賽give me some credit資料集
5.3江蘇城投企業信用評級
5.1-5.3相關教程入口1(推薦)
5.1-5.3相關教程入口2
5.4 美國金融科技公司lendingclub信貸資料集
5.5 消費者人群畫像—信用智能評分
舉辦機關福建省數字福建建設上司小組辦公室 & 福建省工業和資訊化廳 & 福州市人民政府 & 中國電子資訊産業發展研究院 & 數字中國研究院 & 中國網際網路投資基金
5.4-5.5相關教程入口1(推薦)
5.4-5.5相關教程入口2
6、金融資訊收集網站
6.1tradingeconomics
官網https://tradingeconomics.com/,包含世界各國數百個經濟名額,包括GDP,CPI,PPI,負債率,大宗商品價格指數等等。
6.2 FRED economic data
官網https://fred.stlouisfed.org/,金融資料查詢
6.3 日本銀行
https://www.boj.or.jp/
6.4 wind資料庫
官網:https://www.wind.com.cn/Default.html,中金公司金融行業資料庫
6.5 紙黃金
黃金價格和交易量查詢,有具體資料下載下傳http://www.zhijinwang.com/etf/
6.6股票/債券市場輿情分析和預警相關網站
萬得(https://www.wind.com.cn/)
東方财富網(https://www.eastmoney.com/)
和訊資料(http://data.hexun.com/)
彭博(https://www.bloomberg.net/)
6.7反洗錢調查
FATFhttp://www.fatf-gafi.org/
反洗錢金融行動特别工作組
。西方七國為專門研究洗錢的危害、預防洗錢并協調反洗錢國際行動而于1989年在巴黎成立的政府間國際組織,是目前世界上最具影響力的國際反洗錢和反恐融資領域最具權威性的國際組織之一。目前包括36個成員管轄區和2個區域組織,代表全球各地的大多數主要金融中心。其制定的反洗錢四十項建議和反恐融資九項特别建議(簡稱
FATF 40+9項建議),是世界上反洗錢和反恐融資的最權威檔案
6.8企業理财公告資訊智能提取,助力銀行客戶經理營銷
巨潮資訊網(http://www.cninfo.com.cn/new/index)
銀行家年鑒(https://accuity.com/)
道瓊斯(https://www.dowjones.com/)
版權聲明:文章來自公衆号(python風控模型),未經許可,不得抄襲。遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。
python金融風控評分卡模型和資料分析(加強版)