【機器學習系列之八】模型設計

2023-04-25 15:10:04

本文是競賽中的模型設計，基本都非常複雜，針對不同問題，有不同的解法，是以這隻是參考。

1.微額借款人品預測-不得直視本王

特征處理的時候對數值型資料生成了排序特征，還有離散特征和計數特征。

M1:

python,R，java三個不同版本的xgboost + SVM。參數各有不同，是以模型間具有比較高的差異性。

【機器學習系列之八】模型設計

M2:

利用bagging的思想，訓練36個xgboost.每個xgboost的對各類型的特征都選取topN個，N的個數可以在一定範圍内随機取，有利于模型的随機性。同時模型的參數也随機取。是以，可以同時在特征和參數中都增加了多樣性。

【機器學習系列之八】模型設計

M3:根據模型差異性簡單權重融合

為了直覺觀察模型間的差異性，可計算模型間的最大資訊系數，然後以混淆矩陣的形式給出（顔色越淺，表示模型差異性越大）

【機器學習系列之八】模型設計

選取模型差異性大的來融合

融合方案：

【機器學習系列之八】模型設計

M4:疊代半監督

用最好的模型預測無标簽資料，設定閥值a,b，超過閥值，則判定為正（負）樣本，然後添加到訓練集訓練，接着繼續預測。

【機器學習系列之八】模型設計

M5:暴力半監督

【機器學習系列之八】模型設計

每次從無标簽樣本中選擇10個樣本，有1024種打标簽方式。使用但模型訓練1024次并在測試集上測試，選擇線下（train:test為1：9）性能提升最多的那組标簽。

将5000組*10的資料取top500組*10。在這5000個樣本中，每次選擇部分樣本（20-50）添加到訓練集觀測線上表現，保留提分的樣本。最終将這部分樣本添加到訓練集中，運作M3得到最終的模型。

【機器學習系列之八】模型設計

2.微額借款–就是gan

利用粒子群優化算法暴力內建，也是一種內建思想。

【機器學習系列之八】模型設計

未完，待續

參考

不得直視本王-冠軍分享問答及完整代碼

粒子群優化算法

就是gan算法分享

微額貸款人品預測分享合集

【機器學習系列之八】模型設計

繼續閱讀

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入