天天看點

【機器學習系列之八】模型設計

本文是競賽中的模型設計,基本都非常複雜,針對不同問題,有不同的解法,是以這隻是參考。

1.微額借款人品預測-不得直視本王

特征處理的時候對數值型資料生成了排序特征,還有離散特征和計數特征。

M1:

python,R,java三個不同版本的xgboost + SVM。參數各有不同,是以模型間具有比較高的差異性。

【機器學習系列之八】模型設計

M2:

利用bagging的思想,訓練36個xgboost.每個xgboost的對各類型的特征都選取topN個,N的個數可以在一定範圍内随機取,有利于模型的随機性。同時模型的參數也随機取。是以,可以同時在特征和參數中都增加了多樣性。

【機器學習系列之八】模型設計

M3:根據模型差異性簡單權重融合

為了直覺觀察模型間的差異性,可計算模型間的最大資訊系數,然後以混淆矩陣的形式給出(顔色越淺,表示模型差異性越大)

【機器學習系列之八】模型設計

選取模型差異性大的來融合

融合方案:

【機器學習系列之八】模型設計

M4:疊代半監督

用最好的模型預測無标簽資料,設定閥值a,b,超過閥值,則判定為正(負)樣本,然後添加到訓練集訓練,接着繼續預測。

【機器學習系列之八】模型設計

M5:暴力半監督

【機器學習系列之八】模型設計

每次從無标簽樣本中選擇10個樣本,有1024種打标簽方式。使用但模型訓練1024次并在測試集上測試,選擇線下(train:test為1:9)性能提升最多的那組标簽。

将5000組*10的資料取top500組*10。在這5000個樣本中,每次選擇部分樣本(20-50)添加到訓練集觀測線上表現,保留提分的樣本。最終将這部分樣本添加到訓練集中,運作M3得到最終的模型。

【機器學習系列之八】模型設計
2.微額借款–就是gan

利用粒子群優化算法暴力內建,也是一種內建思想。

【機器學習系列之八】模型設計

未完,待續

參考

不得直視本王-冠軍分享問答及完整代碼

粒子群優化算法

就是gan算法分享

微額貸款人品預測分享合集