天天看點

ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)

競賽相關資訊

競賽背景:

       為貫徹關于“推動網際網路、大資料、人工智能和實體經濟深度融合”以及“善于運用網際網路技術和資訊化手段開展工作”等講話精神,引導高校在校生學習掌握計算機與網際網路知識,提高計算機的技能應用,中國軟體行業協會教育訓練中心将舉辦全國大學生計算機技能應用大賽。大賽旨在增強廣大在校大學生的IT應用技能,對于進一步落實學校培養應用型人才的目标要求,培育創新創業人才、促進産學研相結合有着重要意義。

       當今社會,房屋租金由裝修情況、位置地段、戶型格局、交通便利程度、市場供需量等多方面因素綜合決定,對于租房這個相對傳統的行業來說,資訊嚴重不對稱一直存在。一方面,房東不了解租房的市場真實價格,隻能忍痛空置高租金的房屋;另一方面,租客也找不到滿足自己需求高成本效益房屋,這造成了租房資源的極大浪費。

       本次計算機技能大賽中的大資料賽題将基于租房市場的痛點,提供脫敏處理後的真實租房市場資料。選手需要利用有月租金标簽的曆史資料建立模型,實作基于房屋基本資訊的住房月租金預測,為該城市租房市場提供客觀衡量标準。

任務與資料

         資料為某地4個月的房屋租賃價格以及房屋的基本資訊,我們對資料做了脫敏處理。 選手需要利用訓練集中的房屋資訊和月租金訓練模型,利用測試集中的房屋資訊對測試集資料中的房屋的月租金進行預測。

         資料分為兩組,分别是訓練集和測試集。 訓練集為前3個月采集的資料,共196539條。 測試集為第4個月采集的資料,相對于訓練集,增加了“id”字段,為房屋的唯一id,且無“月租金”字段,其它字段與訓練集相同,共56279條。 訓練集所含字段如下:

ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)

2018年全國大學生計算機技能應用大賽

住房月租金預測大資料賽(付費競賽)

資料集處理前後

1、訓練集、測試集

ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)
ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)

2、FE處理後的訓練集

ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)

輸出結果

1、測試集經過模型訓練後輸出的結果

ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)

設計思路

1、處理的【小區房屋出租數量】列為空值的思路

ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)

2、處理資料

ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)
ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)
ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)
ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大資料賽》——設計思路以及核心代碼(一)

繼續閱讀