本文是競賽中的模型設計,基本都非常複雜,針對不同問題,有不同的解法,是以這隻是參考。
1.微額借款人品預測-不得直視本王
特征處理的時候對數值型資料生成了排序特征,還有離散特征和計數特征。
M1:
python,R,java三個不同版本的xgboost + SVM。參數各有不同,是以模型間具有比較高的差異性。
M2:
利用bagging的思想,訓練36個xgboost.每個xgboost的對各類型的特征都選取topN個,N的個數可以在一定範圍内随機取,有利于模型的随機性。同時模型的參數也随機取。是以,可以同時在特征和參數中都增加了多樣性。
M3:根據模型差異性簡單權重融合
為了直覺觀察模型間的差異性,可計算模型間的最大資訊系數,然後以混淆矩陣的形式給出(顔色越淺,表示模型差異性越大)
選取模型差異性大的來融合
融合方案:
M4:疊代半監督
用最好的模型預測無标簽資料,設定閥值a,b,超過閥值,則判定為正(負)樣本,然後添加到訓練集訓練,接着繼續預測。
M5:暴力半監督
每次從無标簽樣本中選擇10個樣本,有1024種打标簽方式。使用但模型訓練1024次并在測試集上測試,選擇線下(train:test為1:9)性能提升最多的那組标簽。
将5000組*10的資料取top500組*10。在這5000個樣本中,每次選擇部分樣本(20-50)添加到訓練集觀測線上表現,保留提分的樣本。最終将這部分樣本添加到訓練集中,運作M3得到最終的模型。
2.微額借款–就是gan
利用粒子群優化算法暴力內建,也是一種內建思想。
未完,待續
參考
不得直視本王-冠軍分享問答及完整代碼
粒子群優化算法
就是gan算法分享
微額貸款人品預測分享合集