天天看點

阿裡大資料比賽sesson2_RF&GBRT(下)

                               -----------__-----------接上文---------__----------    

                                          2、Xlab RF上手

2.1、訓練特征表準備

訓練的特征表gbrt_offline_section_one_24格式為:user_id,brand_id,feature1,feature2...Label    (和GBRT時候是一樣的),見下圖所示:

阿裡大資料比賽sesson2_RF&GBRT(下)

2.2、RF訓練

利用訓練的特征表gbrt_offline_section_one_24,進行RF訓練,如下圖是以

阿裡大資料比賽sesson2_RF&GBRT(下)

進入配置界面,在Features 框裡勾選訓練特征以及該特征連續與否,在Class框裡目标處選擇标簽列,模型輸出表處填寫輸出模型表名:gbrt_offline_section_one_25;進一步,點選參數配置頁籤,進入參數配置界面,進行參數配置,我們主要配置了樹的棵樹,配置好後,進行訓練,如下圖所示:

阿裡大資料比賽sesson2_RF&GBRT(下)
阿裡大資料比賽sesson2_RF&GBRT(下)

訓練結束,得到RF模型表gbrt_offline_section_one_25。

2.3、RF預測

利用預測特征表gbrt_offline_section_two_11進行RF預測,如下圖所示:

阿裡大資料比賽sesson2_RF&GBRT(下)

進入配置界面:在結果附加列中添加user_id ,brand_id 列,勾選目标列2分類,主分類為1,這樣預測結果表中就會給出預測為1 的機率值,輸出資訊處填寫預測輸出表,進行預測,如下圖:

阿裡大資料比賽sesson2_RF&GBRT(下)

預測完成之後即可根據conclusion=1判斷預測的正樣本,或者根據probability門檻值判斷(從一位哈工大同學大帥那裡得到了如下控制推薦條數的好方法),如下圖:

阿裡大資料比賽sesson2_RF&GBRT(下)

  最後,比賽做到現在,都快三個月了,沒有了當初的興奮,都在為刷分而刷分,早已違背了當初的參賽初衷,還有十幾天就到頭了,想說,終于知道啥是大資料競賽了。。。。。。坑。。。。。。。。

                                          -----------__-----------完--------__-----------

繼續閱讀