天天看點

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

廣東航空大資料創新大賽中,大熊座epsilon的同學們分享了比賽成果。首先從資料預處理、資料反映規律開始講起,确定了工作流程,重點解釋了方案設計,包括二段式模型和時序回歸方法,最後對算法優勢和應用作了總結。一起來了解下吧。

問題&資料

<b>資料預處理——選擇與清洗</b><b></b>

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

本場賽題共有六張表的資料:a.連接配接wifi ap (access point)的人數表 airport_gz_wifi_ap,b.安檢旅客過關人數表 airport_gz_security_check,c.旅客進入-離開機場的行程表

airport_gz_departure,d.航班排班表airport_gz_flights,e.機場登機口區域表airport_gz_gates,f.  機場wifi接入點坐标表

airport_gz_wifi_coor考慮到要預測未來兩天的wifi ap 連接配接數量,連接配接wifi ap (access point)的人數表無疑是最有利用價值的一張表,而安檢旅客過關人數表和旅客進入-離開機場的行程表對于預測未來幾個小時内的很有價值,但是對于預測未來兩天這樣長的時間段應該作用不大。

航班排班表與wifi ap連接配接情況尤其是登機口附近的wifi ap相關性很大,配合機場登機口區域表和機場wifi接入點坐标表應該能較好地從時間和空間上預測wifi ap的連接配接情況。是以,我們選用a,d,e,f這四張表來進行模組化。

我們來預測10月11、12号兩天的wifi的每十分鐘平均連接配接數和實際值差的平方和。在這個過程中我們進行了一定的資料清理,再得出相應的模型。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

資料預處理主要包含:1,連接配接wifi ap (access point)的人數表存在缺失資料情況,對于個别時間段的資料缺失,可以利用填充0或者前後幾天均值來進行填充,對于大段時間段的資料缺失,我們考慮以天為機關删除資料,不予利用。2,航班排班表中的計劃起飛時間和實際起飛時間與其他表的時間有八小時誤差,我們進行了處理。3,機場wifi接入點坐标表中wifi ap 坐标沒有辦法直接和登機口聯系起來,我們先将這些點的坐标回歸拟合成經緯度坐标,然後可以和登機口經緯度坐标聯系起來。

<b>資料反應規律</b><b></b>

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

在對資料進行清理的過程中,會發現有些規律性的東西。第一,整個wifi的連接配接具有一定的周期性;第二,相鄰的wifi具有非常高的相關性;第三,一個wifi點的連接配接數跟它周圍的登機口的資訊具有非常強的相關性。當然,實際過程中有個别的wifi點是非常特殊的,因為在機場裡會有小吃店、書店等會對整體有一定的影響。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

在比賽過程中,我們對資料進行了整體的可視化研究,可以看到整個區域都進行了拆分可視化,裡面的紅點、藍點、綠點實際上是每一個wifi點波動值的情況,每個區域都有不同的特點,t1區wifi和所有登機口的航班相關,wc和ec區wifi和某一區域登機口的航班相關,w123,e123區wifi和鄰近登機口的航班相關。

<b>工作流程</b><b></b>

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

我們整體的工作流程是,線上下建立測試集和訓練集,然後線上下做自己的線下評分,每天會進行多次來保證模型的穩定性和選擇相對最優的模型進行線上送出,然後根據線上的分數回報,調整線下模型,使模型變得更加精準穩定。我們也不斷地進行特征選擇、特征優化、模型調參,包括最後的模型融合。

方案設計

<b>整體解題方案</b><b></b>

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

整體預測模型首先要先分區域,我們發現這個模型隻應用一張表,即wifi的連接配接表對整體進行相應預測。而這個模型的預測效果并不是特别好,我們又找到單wifi殘差學習模型。

<b>整體預測模型</b>

我們采用的方案原理是wifi連接配接數的周期性規律,考慮因素包括距離目前天的遠近、星期、月出月末、白天中午晚上半夜,使用線下回歸來做。

我們的特征選擇包括:

最近1,2,3…天同時段10分鐘wifi平均連接配接數;

最近1,2,3…天同時段30分鐘wifi平均連接配接數;

最近1,2,3…天同時段60分鐘wifi平均連接配接數;

最近的周一,周二…同時段10分鐘wifi平均連接配接數;

兩周内同時段wifi平均連接配接數最大值,最小值,中位數。

整體預測,每個wifi ap的在某一時間段的連接配接數具有很強的時間周期性,是以用曆史資料來進行回歸預測對于絕大多數ap來說就已經能很好地拟合,而且過拟合的情況不嚴重。

<b>單</b><b>wifi</b><b>殘差學習模型</b>

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

單wifi殘差學習模型采用的方案原理是wifi連接配接數和登機口航班起降的相關性,需要考慮wifi點附近有哪些登機口及其航班起降情況,采用線性回歸來做。

wifi的連接配接數跟航班資訊是有非常強的相關性的,它與周圍能影響wifi登機口的航班具有非常強的關聯性,這樣,我們就打通了非常多的表,包括航班區域表、ap wifi表、人流表,

然後将航班資訊标注出來,我們學習的是在預測值和線下建立的測試集中間天數的內插補點,再将內插補點與實際預測值進行相加,得出最終模型。

該模型的特征選擇包括:

過去三小時,過去一小時,過去半小時,過去十分鐘……附近登機口有多少個航班起降;

最近三小時,最近一小時,最近半小時,最近十分鐘……附近登機口有多少個航班起降;

未來三小時,未來一小時,未來半小時,未來十分鐘……)附近登機口有多少個航班起降;

距離該wifi ap的最近的登機口在過去,最近,未來的飛機起飛情況;

距離該wifi ap的第二近的登機口在過去,最近,未來的飛機起飛情況。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

通過整體預測,大部分的wifi ap已經得到了一個相對較優的預測值,但是對于一些ap,尤其是在登機口附近的wifi ap由于受到飛機航班起降的影響非常嚴重,預測地不是很好,需要進一步進行修正學習。我們将第一步的預測值和實際值作為一個殘差,學習并預測這個殘差,就可以進一步提高預測的精度,而每一個wifi ap附近的登機口是不同的,而且由于其他空間因素的影響,不同wifi ap之間的資料幾乎無法互相利用,是以需要對于每個wifi ap單獨模組化,回歸出殘差。對于e1,e2,e3,w1,w1,w3這六個區域的wifi ap,是直接的候機休息區,會直接收到距離其很近的登機口的航班起落影響,于是我們根據wifi ap和登機口的經緯度坐标,計算距離,求出每個wifi ap可能會受到那幾個登機口的影響,進一步提取特征,訓練模型。對于ec和wc區域,是走向候機區的通道,會受到某一個區域所有航班的影響,我們将其細分成了六個區域,分别提取特征,每個wifi ap單獨訓練,預測各自殘差。

<b>時序回歸方法</b><b></b>

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

我們認為航班的等待人數和ap的連接配接數是成正相關的,于是我們通過已知航班排班表和航班登機人數,來學習得到一個函數,利用這個函數關系,做線性回歸。在所有區域學習的時候,實際上是用最優化的方程,用粒子群優化來做整體的函數求解。

2016“資料引領 飛粵雲端”廣東航空大資料創新大賽亞軍:大熊座epsilon

利用轉化函數f(),可以利用航班表資訊,平均延誤時間,平均登機人數計算每個登機口前的大緻等待人數的時序資訊。

以上兩個模型線上上驗證成立後,發現兩個方案結果相關度不高,有融合提高空間。我們将兩個模型進行權重融合,并進行線上送出,結果有了很大提升。

比賽總結

<b>算法優勢</b><b></b>

兩段式學習:通過兩段式學習方案,将不同來源,不同價值的資訊都學到;

多路并行線性回歸:并行的簡單模型,避免了不同資料源的互相影響,增強算法穩定性;

可視化分析:通過地圖可視化來幫助進行特征選擇,還有助于發現新規律。

<b>算法應用</b><b></b>

通過航班表可以快速預測機場内的人流密度分布,作為排班優化的重要依據;

旅客wifi接入率低,分布不均勻,wifi的資源使用率有提升空間;

為機場其他設施的改進提供依據。

繼續閱讀