天天看點

阿裡大資料比賽sesson2_RF&GBRT(上)

----------一點比賽心得,供不太熟悉Xlab RF和GBRT調用的同學參考,不喜勿噴,大神繞道,麼麼哒。。。。。----------

6月初的時候LR 做到4.9後一直上不去,看群裡火熱的讨論RF,轉而使用RF,幾經折騰上手後,在當時的那批對LR來說很好的特征處理下,結果F1隻有3.5左右,心灰意冷。。。然後又看到火熱讨論GBRT,再轉gbrt,剛上手,效果和RF差不多,看到别的同學直接從LR轉到RF和GBRT都效果好很多,那個急啊,然後又是考試周,就一直拖拉到6月下旬,終于下定決心重新做一遍,因為gbrt訓練時間比較長,且RF和GBRT對特征的效果相當,RF預測時間相對較短一些,便重新做RF,慢慢的有效果了,停止了F1終于開始往上漲:4.9->5.16->5.66...最近開始再添加特征,相信還會有提升,下面把我們的RF和GBRT的訓練和預測方法大概講一下(主要以截圖為主)

1、Xlab GBRT上手

1.1、訓練特征表準備

訓練的特征表gbrt_offline_section_one_24格式為:user_id,brand_id,feature1,feature2...Label      

見下圖:

阿裡大資料比賽sesson2_RF&GBRT(上)

1.2 、建立特征稀疏表,為訓練做準備

特征稀疏表可直接在Xlab由原始特征表轉換得到,截圖如下:

阿裡大資料比賽sesson2_RF&GBRT(上)

進入普通表轉稀疏矩陣界面後,在選擇列裡填上: user_id對應的列号(表預設從0列開始),brand_id對應的列号,以及想要使用的衆多特征對應的列号(不需要填寫标簽對應的列号!!!);然後在輸出表裡填上轉換成的稀疏矩陣:gbrt_offline_section_one_24_1;如下圖

阿裡大資料比賽sesson2_RF&GBRT(上)

1.3 、GBRT訓練

       利用訓練的特征表gbrt_offline_section_one_24,進行GBRT訓練,如下圖是以

阿裡大資料比賽sesson2_RF&GBRT(上)

進入配置界面,勾選訓練的标簽,稀疏矩陣名處輸入剛才轉好的稀疏矩陣gbrt_offline_section_one_24_1,模型輸出表處填寫模型輸出表名,參數配置處根據效果進行配置(最開始預設就可以的)。如下圖所示:

阿裡大資料比賽sesson2_RF&GBRT(上)
阿裡大資料比賽sesson2_RF&GBRT(上)

配置好隻好就可以進行訓練了,等待訓練好之後等到GBRT預測模型:gbrt_offline_section_one_25;

1.4、GBRT預測特征表準備

訓練的特征表gbrt_offline_section_two_11格式與訓練特征表格式一樣,為:user_id, brand_id, feature1, feature2...Label      見下圖:

阿裡大資料比賽sesson2_RF&GBRT(上)

1.5、建立預測稀疏矩陣表

特征稀疏表可直接在Xlab由原始特征表轉換得到,方法和原來一樣,直接截圖如下:

阿裡大資料比賽sesson2_RF&GBRT(上)

需要注意的是,選擇列必須和訓練時候一樣!!!

阿裡大資料比賽sesson2_RF&GBRT(上)

1.6、GBRT預測

利用轉好的預測稀疏矩陣表gbrt_offline_section_two_11_1進行預測,如下圖所示

阿裡大資料比賽sesson2_RF&GBRT(上)

進入界面如下:model 處填寫剛才訓練好的GBRT模型表:gbrt_offline_section_one_25;輸出表名處填寫預測結果輸出表 gbrt_offline_section_two_13,然後進行預測,如下圖所示:

阿裡大資料比賽sesson2_RF&GBRT(上)

1.7、GBRT碎碎念

GBRT預測好之後,得到的結果為與原始預測表gbrt_offline_section_two_11一一對應的單列值y_var(搞不懂為什麼不提供類似RF那樣預測結果追加user_id,brand_id 列),如下圖:

阿裡大資料比賽sesson2_RF&GBRT(上)

是以,還得進行追加ID列,進行zxs_gbrt_offline_section_two_13_1和zxs_gbrt_offline_section_two_11_1兩張表的合并,得到類似user_id,brand_id,y_val的表,取門檻值進行推薦就可以了,下圖為xlab裡提供的腳本,追加ID列代碼。

阿裡大資料比賽sesson2_RF&GBRT(上)

另外:附上腳本實作的代碼,友善測試:

阿裡大資料比賽sesson2_RF&GBRT(上)

-----------__-----------PS---------__----------

繼續閱讀