天天看點

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

<b>摘要</b>:2016“資料引領 飛粵雲端”廣東航空大資料創新大賽,由廣東省人民政府和阿裡巴巴集團聯合主辦,旨在提高全社會對大資料價值的認識,培養大資料應用人才,鼓勵資料創新創業實踐,推動航空大資料技術成果轉化和落地。本文整理自本次大賽極客獎獲獎團隊oh my god的現場答辯。

本文整理自獲得2016“資料引領 飛粵雲端”廣東航空大資料創新大賽獲得極客獎的oh my god團隊的答辯視訊。oh my god團隊中的三名成員都是西安電子科技大學研二的學生,同時也都是資料挖掘的愛好者,以下為團隊簡介:

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

oh my god團隊的答辯中主要圍繞了以下四個方面:

賽題背景

資料分析

解決方案

賽後總結

<b>賽題背景</b>

正如賽題介紹中所描述的,對于機場客流量的預測其實是非常有意義的。而本次大賽為比賽團隊提供了白雲機場兩個月的資料記錄,包括wifi連接配接記錄、安檢記錄以及航班排班表等資料資訊,并要求對于未來兩個整天,也就是11月11号以及11月12号每個wifi點10分鐘内的平均裝置的數量進行預測,測評的公式如下圖所示。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

<b>資料分析</b>

在資料分析階段,oh my god團隊将白雲機場劃分成了5個區域,分别是最中間的航站樓以及東西兩邊各有的兩片登記區域,以及連接配接航站樓和登機區域的兩片走廊。對于這些區域進行簡單的可視化分析發現不同區域的客流量的均值和波動性存在很大的差别,登機區域的客流量波動是比較大的,同時業務量也是比較大的;相比而言,航站樓區域和走廊區域的客流量就比較穩定,并且oh my god團隊對此提供了資料統計來支撐這一觀點。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

白雲機場的登機區域具有大業務量、大波動的特點,這是預測的難點和重點,是以oh my god團隊對這個區域進行了單獨的分析和模組化。他們在進行資料分析時也嘗試着使用曆史的統計量對wifi的接入量進行了拟合,并發現曆史統計量是非常有意義的,其對于某一個wifi在某一時間點的平均水準有非常好的把握,但是對于登機區域wifi的波動卻不能很好地拟合。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

根據以上的分析,oh my god團隊建構了兩個主要模型。一個是基于曆史資訊的整體區域模型,另一個是基于航班分析的登機區域模型。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

<b>解決方案</b>

oh my god團隊首先對于整體區域進行模組化,這部分使用了兩種方法進行,一種是專家系統,也就是規則方法,另外一種是機器學習方法。oh my god團隊在進行資料分析時考慮了以下的影響因素,首先是wifi曆史連接配接量的統計資訊,這個統計資訊對于平均量的把握是非常有意義的,而且因為預測的是每十分鐘的接入量,是以時段的影響也必須要考慮,除此之外還考慮了星期、節假日以及樓層區域的影響,加上資料資訊以及對于業務的了解就建構了這樣的一個專家系統。并且基于這些資訊,提取了特征并且建構了機器學習方法,而且該模型使用的機器學習方法包含了兩種,一種是gbdt,另外一種則是線性回歸。最後,将規則結果以及機器學習的結果進行了融合,得到最終整體區域模組化的結果。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

接下來,介紹模組化中使用的規則方法。如何通過曆史統計量進行合理地預測呢?oh my god團隊認為這需要依賴于背後的業務邏輯,并且他們根據資料分析得到了如下圖所示的一些業務邏輯。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

業務邏輯中的前兩條其實可以看做是資料預處理的過程,也就是除去一些業務缺失以及節假日的時間點,因為需要預測的兩天不是節假日,是以像國慶節這樣日期的資料對于分析的幹擾是比較大的,必須要去除的。除此之外,在模型中還做了平滑來去除異常點的影響。對于第三點,近期曆史業務的統計均值是具有較強的參考價值的,也就是說離預測時間越近,資料的統計和參考意義就越強。

對于星期的相關性而言,需要預測的兩天11号和12号分别是周五和周六,一般而言這兩天的業務量會比較大,是以星期的影響也必須要考慮進去。最後一點是不同樓層,不同區域的wifi點對于時間的敏感程度不一緻,這一點無論是通過線上測試還是天池對于成績的回報都給出一個感覺:3樓業務量大,波動也大,對于時間的敏感程度也比較高,是以在進行分析時,時間跨度取得短一些比較好;而1,2樓業務量比較穩定,是以時間跨度可以取長一些。oh my god團隊的模型就是基于以上的這些業務邏輯來做的,換句話說也就是以業務為本的。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

接下來,oh my god團隊介紹了他們所使用到的機器學習方法。首先,他們使用了特征工程,将wifi的id、所處的時段、樓層區域等進行了one-hat編碼作為一個特征,并且做了一些統計量,前1,3,5,7,14天對應十分鐘,對應小時統計資訊以及星期、區域的統計資訊作為相應的特征,并且統計了wifi的接入量及方差排名特征。而且為了表現不同特征之間的互動資訊還做了交叉特征。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

因為要預測11月11号和12号的資訊,為了保證時效性,oh my god團隊選取了9号和10号的資料作為測試集,而使用之前的時間段作為序列集,并且在提取特征的時候使用了滑動視窗的方式。而在提取特征之前的資料預處理也是非常重要的,值得強調的一點是訓練集的選擇也是非常重要的,雖然需要預測的兩天是周五和周六,但是與之前的周五、周六相比,這兩天的業務量沒有那麼大,是以在選擇的時候需要保證訓練集和線上測試集的一緻性。

劃分完資料集、做完特征工程之後,oh my god團隊使用了gbdt和線性回歸來進行預測,并結合剛才所提到的規則方法,将結果進行融合并作為整體區域模組化的最終結果。

登機口區域的業務量比較大,其波動也比較大,是以對其進行了單獨的分析模組化,而這裡分析的重點就是要找出隐藏在這些波動背後的原因究竟是什麼。其實登機口區域有很多的休息座椅區,一般情況下,乘客都是根據航班起飛的時間提前到達登機口區域進行候機的,是以候機口在飛機起飛前非常容易彙集乘客。根據以上的分析以及wifi坐标點資訊,oh my god團隊對于登機口以及wifi進行了對應,再基于航班的資訊表提取了相應的特征,并且使用gdbt進行回歸分析。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

下圖是某一個wifi點在某天平均接入量的連接配接圖,圖上紅色點就是航班的起飛時間,可以明顯看出,在航班起飛之前有業務量上漲的情況出現,并且其範圍的确是有限的,而且對于前面不同時間點的影響是不一樣的。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

wifi的連入量與航班起飛的不同時間關系對應着不同的影響因子。oh my god團隊從大量的曆史資料中統計出乘客的登機習慣,發現大多數乘客會選擇在飛機起飛前50到100分鐘内通過安檢并進行候機,因為客流量是累計的過程,是以這裡應該考慮累計率。一般情況下,乘客經過安檢以後會直接去登機口候機,是以可以認為對于安檢習慣統計出來的比例是起飛時間對應前面時段不同時間的影響因子的。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

除此之外,模組化中還考慮了航班載客量的影響因素。其實在提取特征時是将航班的載客量以及影響因子一起考慮的,也就是假設某一個登機口處在後3小時内有兩架航班要起飛,下圖中的時間點2就是表示同時受到了兩架航班的影響,是以會存在疊加的效果。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

對于特征工程而言,以3個小時作為時間跨度,每半個小時為粒度,統計了wifi點附近登機口在未來不同時間段内的航班數目以及不同航班的乘客數目,根據乘客數目以及影響因子做了疊加的特征。除了以上兩點之外,還使用了曆史統計量等其他特征。在特征工程建立完成之後,oh my god團隊使用了gbdt對這一部分進行了回歸,并完成了登機區域的模組化。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽極客獎:Oh my god團隊

總而言之,在整體架構上而言,就是将問題模型的建構分成了兩部分。一部分是整體模組化,另一部分是對于登機區域進行模組化,對于整體進行模組化考慮的是曆史統計資訊以及對于業務邏輯的了解,建構了專家系統和機器學習方法,将預測結果進行了融合作為最終整體區域模組化的結果;對于登機區域而言,則考慮了安檢資訊和航班資訊進行模組化。oh my god團隊認為自己的方法優勢在于整體區域模組化能夠比較好地把握wifi點在某一個時間點的平均水準,而登機區域模組化能夠比較好地利用登機資訊以及乘客的登機習慣對于登機口區域wifi的波動做出比較好的拟合,兩個模型結合起來可以進行優勢互補,起到比較好的結果。

<b>賽後總結</b>

oh my god團隊談到在經過了整個比賽,團隊和成員都收獲了很多,也得到了成長,并且也對于真實的業務資料有了更好的了解。他們感觸比較深的就是充分認識到了業務的重要性,好的方法來源于對資料的分析和對于業務的了解,構造特征的過程就是刻畫業務的過程。而在團隊合作中也體會到了責任與擔當,同時,oh my god團隊還談到要感謝天池大資料平台和白雲機場給了他們接觸真實業務的機會,并且希望天池大資料平台能夠越來越好。

繼續閱讀