天天看點

基于智彙卡的公交大資料應用研究

溫旭麗 魏琳 胡天慈

東南大學成賢學院

摘 要:論文以基于智彙卡的公交大資料為分析研究對象,對公交大資料在公交服務水準評價以及營運排程方面的應用展開研究。首先分析了智彙卡大資料多源資料特征,并對多源資料進行處理,具體包括:資料的清理、選取、異常值的處理以及智彙卡交易資料與GPS資料的比對,最後標明資料優質的南京市37路公交作為應用研究對象。運用大資料對37路公交的服務水準進行評價,包括站點可達性、線路可達性、服務便捷性。同時運用大資料分析37路公交的客流特征,制定組合排程形式提高其服務水準。結果表明:運用大資料可以更加科學的進行公交服務水準的評價以及優化公交的排程形式。

關鍵詞:公共交通;大資料;多源資料融合;服務水準評價;排程優化;

基金:江蘇省高校“青藍工程”資助;江蘇省交通運輸科技項目(項目編号:2019Y52);東南大學成賢學院青年教師科研發展基金項目(z0013);

網際網路改變了人類生活的格局,随着資訊技術、通信技術、計算機技術等的快速發展,數字城市與智慧城市接踵而來,城市的建設促進了移動網際網路、物聯網、雲計算等技術的發展,并直接推動了大資料(Big data)時代的來臨。在交通領域,傳統的資料采集逐漸向電子化、資訊化等進階應用轉變,推動了交通大資料的形成與發展。從傳統的公交人工售票轉向自動交易收費;從傳統的感應線圈和手持雷達等固定檢測以及基于浮動車的移動檢測,轉向智能手機、北鬥-7-衛星導航系統等新型檢測方式。同時,資訊化發展的集約交通傳感器布局和可靠的多源資料融合在不斷的發展,交通大資料為“感覺現在、預測未來、面向服務”提供了最基本的資料支撐,成為解決城市交通問題的最基本條件。有不少學者對IC卡資料的應用展開了研究,但目前基于公交IC卡資料的公交服務水準分析及公交排程改善的研究較少,羅雲輝僅是對公交的運作速度、高峰排隊情況進行分析,缺少詳細的對時間、空間上對公交的服務水準進行評價;肖華剛主要是基于公交資料對公交運作時刻表進行了優化,并未對其運作狀态和服務水準進行細緻的評價;井國龍使用了公交IC卡資料及GPS資料對公交運作進行了服務層級的評定,基于Logit模型建構了服務水準評價模型,但是其模型更偏向于公交運作方面,尚未對公交乘客角度上形成完整的考慮。國外學者利用公交AVL資料研究了公共汽車輛的運作可靠性,基于速度、時間、到站準時性等名額評價了公共汽車輛的運作狀态。但是由于客流分布的空間不均衡性特點,不考慮客流的因素不可避免的使得研究結論與實際有偏差。

1 多源資料融合與處理

1.1 多源資料特征

公交GPS資料在收集時,由于裝置自身或者傳輸等原因,資料中絕大部分經緯度資訊都在一定程度上存在問題。主要存在問題如下:

(1)資料中存在大量的異常值;

(2)随着時間變化經緯度資訊不變異常;

(3)資料存在缺失。

1.2 多源資料處理

1.2.1 資料清理

由于各種原因,資料的異常現象在公交資料的采集、存儲和傳輸過程中是無法避免的,例如資料缺失、資料不一緻、資料錯誤等。對于公交系統資料而言,其資料清理需要注意資料缺失、資料錯誤、備援錯誤、資料一緻性等問題。為了滿足準确的資料分析,提高資料的品質,滿足預期資料分析的要求,需要對資料進行篩選與清理,完成資料預處理。

1.2.2 資料選取

基于現狀擷取完整資料的局限以及目前GPS資料問題的分析,需要對現狀合适GPS資料進行提取,選擇資料品質最好的公交線路進行分析,以減少因資料自身品質的問題影響對公交客流的分析。通過對資料自身問題的分析以及不斷地實驗,有以下兩種思路對GPS資料進行批量提取:

(1)若bus_no(公共汽車輛号)對應的經緯度相同且相同個數大于50,則剔除相應的bus_no;計算剩餘的bus_no對應的不同經緯度的個數;剔除不同經緯度的個數小于5的bus_no;計算不同線路其各自對應的bus_no數。

(2)計算各bus_no對應的相同經緯度的個數;選取bus_no對應的不同經緯度數大于10的bus_no;計算不同線路其各自對應的bus_no數。

以上兩種途徑中選擇的門檻值可根據各線路實際情況的不同進行相應的改變。

最後,可以根據得到的結果,選擇對應的bus_no最多的公交線路。這兩種方法的好處是能夠批量處理百萬級的GPS資料,大大節約了資料篩選時間,也使得篩選過程與結果一目了然,極大地提高了選取資料的品質。

1.2.3 資料異常值處理,標明研究路線

将某一組資料的經度和緯度在所有站點的經緯度中搜尋,誤差可以在0.0025範圍内波動的,都符合該站點的要求,可以作為該站點的一組交易資料。因為裝置統計不精準,或者公共汽車并沒有準确停靠在站點等原因,一組交易資料的經緯度會與站點的經緯度存在一定的偏差。0.0025是我們在多次試驗中得到的誤差容許範圍。在得到的資料中,0.0025即不會使錯誤資料被計算在内,也不會使一組資料因存在誤差而被統計為兩個站點。是以,符合容許誤差的資料即可算作一次該站點的成功交易資料。

通過對合适公交線路的選取,本次選擇line_no為01015037的公交線路(37路)。37路公交路線較于其他線路其資料品質更優,但是由于車載GPS裝置等原因,仍有部分資料存在缺失或異常。需要對資料進行進一步的缺失值處理,通過觀測,特定車号對應的有經緯度資訊全部為0。這種可能由于此車車載裝置故障等原因,這種往往無法使用其他已知資料替代,也無法根據經驗或其他已知資料進行推測,在資料分析時隻能将之删除處理。對于另外一種情況,通過對缺失資料上下觀察,可以發現其與上下資料往往有着聯系,刷卡的間隔時間很短,這種情況往往能夠通過設定相應的門檻值(1min),通過程式設計實作資料的比對,即借用上下記錄的經緯度資訊,作為替代資料。基于上述分析,對37路公交線路異常值的處理,異常值減少了18.78%。

1.2.4 市民卡交易資料與GPS資料的比對

由于一天内同一市民卡可能進行多次刷卡,同一時間内(精确到秒)會有多張市民卡産生交易資訊,是以不能單獨依照某一字段進行比對,但是如果結合卡号和交易時間這兩個資訊,便可唯一比對兩種資料源(相當于從空間和時間次元出發進行比對)。基于上述對比對過程的考慮,完成相關程式的編寫實作百萬級資料量的批量比對,進而獲得卡号、卡類型、交易時間、車輛号、交易金額、換乘類型、經緯度資訊。

2 基于公交大資料的應用———公交服務評價

2.1 公交站點可達性評價

公交的站點可達性名額,通過公共汽車輛的行車頻率來衡量。對37路公交,選擇上行、下行線路的起點站紫金明珠、萬達廣場北分别作為參考斷面,分不同時間段統計通過的車輛數,并除以時間,得到平均行車頻率。

表1 南京公交37路行車頻率(機關:班/h) 下載下傳原圖

基于智彙卡的公交大資料應用研究

從表1可知,南京公交37路的高峰行車頻率最高,約7班/小時,即平均每8分鐘就有一班車發出;平峰時發車頻率約6班/小時;周末行車頻率較工作日偏低,僅5班左右,盡管如此,乘客周末的平均最大等車時間也不會超過12分鐘。總體而言,37路公交行車頻率較高,發工廠中的房間隔小于10分鐘。

2.2 公交線路可達性評價

公交線路的可達性采用服務時長作為評價名額。根據南京公交37路的營運方提供的時刻表,上行線路的首班車時間為05:30,末班車時間為22:10,服務時長16小時40分鐘;下行線路的首班車時間為6:30,末班車時間為23:00,服務時間為16小時30分鐘;全天的公交服務時間覆寫率為69.44%。

公交刷卡出行者是所有公交出行者中的一部分,由于首、末班車出行者數量較少,市民卡資料難以覆寫到所有站點,無法從市民卡資料中擷取所有站點的首、末班車時間。對于區分上下線路的公交市民卡資料,取該方向當日的首條刷卡記錄作為首班車,當日的最後一條刷卡記錄作為末班車,以此推算每日不同方向的首末班車時間。

刷卡站點一定位于起點站下行方向,利用首末條刷卡記錄推算線路首、末班車駛離起點站的時間,即首末班車時刻表。通過一周的資料分析可知,37路上行方向發車刷卡最早時間是5:23,末班最遲刷卡時間是23:21;下行方向發車刷卡最早時間是5:23,末班最遲刷卡時間是23:39。資料表明:無論是上行還是下行線路,首條記錄時間早于時刻表,末條記錄時間遠晚于時刻表,說明公交37路實際提供的服務時長是可能多于時刻表服務時長的。

2.3 公共服務便捷性評價

從公交出行者的角度出發,對公交服務便捷性最直覺的感受就是在站台的候車時間,乘客在站台的候車時間則受到車輛到達站點時間間隔變化的影響。

首先做出如下假設:

(1)乘客随機獨立到達候車站點,即乘客到達站點的時刻不受公交時刻表及其他乘客的影響;

(2)公共汽車輛按既定發班順序先後到達站點,運作過程中不存在互相超車;

(3)乘客優先選擇首先到達站點的公共汽車輛,并且所有乘客都可以一次上車,沒有乘客留站的現象。在滿足這些假設的前提下,乘客在公交站點的平均候車時間可以表示為:

基于智彙卡的公交大資料應用研究

其中,s為車頭時距偏離的标準差;h為标準車頭時距;

計算公交37路所有站點的乘客平均候車時間,并計算了不同時段全線平均候車時間與不同時段大于平均候車時間的站點比例。由計算結果可知,公交37路的乘客平均候車時間在8~9分鐘左右,高峰時段候車時間最短。在周末和平峰時段,超過30%站點的平均候車時間會大于線路平均候車時間,說明在這兩個時段,公交到達時間不夠穩定。對于上行線路,江東門紀念館-水西門大街、江東門區間與水西門大街、江東門-江東萬達廣場區間的平均候車時間較長,對于下行線路,小天堂-苜蓿園大街區間的平均候車時間較長。考慮到該線路穿越南京中心城區,且服務不穩定的區間位于線路下遊方向,可以認為中心城區不穩定的交通情況導緻了公交37路的服務便捷性降低。

3 基于公交大資料的應用—公交排程優化

3.1 公交線路組合與服務模式改進

合理的排程形式可以有效的降低乘客的出行時間和公交公司的營運成本,同時直接提高人民生活品質和加快城市經濟總價值的創造。以南京37路公交為例,根據前期對于公交IC卡資料的分析與處理,對37路進行排程優化研究。

3.1.1 公交線路組合與公共汽車輛排程形式

線路組合既可以稱為一種排程形式,也可以認為是從普通線路中衍生出的線路形式。線路形式包括全程車、大站快車、區間車等,具體見圖1~圖3。利用公交營運快速靈活的特點,根據實際客流情況,可以采用不同的線路組合形式,如全程車和大站快車,全程車和直達車。

基于智彙卡的公交大資料應用研究

圖1 全程車 下載下傳原圖

基于智彙卡的公交大資料應用研究

圖2 區間車 下載下傳原圖

基于智彙卡的公交大資料應用研究

圖3 大站快車 下載下傳原圖

3.1.2 大站快線公交線路組合适用條件

根據相關文獻資料,實施大站快線組合排程的條件如下:公交線路長度一般在15km以上,站點數大于20個,以保證快車能分擔一定的客流量;一般選擇城市客運交通走廊或高峰時段營運的公交線路;采取大站快線組合排程的公交發工廠中的房間隔一般小于20min;具有一定的道路條件,如公交專用道、公交優先信号等。

本次研究選擇的南京公交37路,線路全長約17公裡,橫穿南京城區,途經多所高校、醫院、商業綜合體、公園等大型客流集散點,線路平均日出行量達1.5萬人次以上;線路中設定公共汽車輛專用道路段約10km,雙向六車道的路段占線路總長的70%以上。綜上所述,南京公交37路具備實施大站快線公交組和服務的需求與條件。

3.2 公交客流分擔率分析

客流具有時間分布和空間分布的不均衡性,由于智慧卡資料隻有上車刷卡交易時間,故本文采取不均衡系數法來确定快車排程形式。方向不均勻系數Ka的計算如式(2):

基于智彙卡的公交大資料應用研究

其中,Qa為統計時間内線路最大單向客運量;

基于智彙卡的公交大資料應用研究

為統計時間内線路平均單向客運量。

一般來說,Ka<Ka0(1.2~1.4);則應采取調整措施,比如錯開沿線有關機關上下班時間或增加運輸車次、開設快車等;

首先,按照車次及時間來判斷刷卡資訊是屬于上行或下行,之後按照時間及站點來分類,以1小時為時間間隔,得到了表2。

表2 37路上下行方向不均勻系數 下載下傳原圖

基于智彙卡的公交大資料應用研究

Ka0取1.35,根據條件Ka<Ka0,需要開行快車的時間段和運作方向是:

上行:12:00:00-12:59:59、18:00:00-18:59:59;

下行:17:00:00-17:59:59、20:00:00-20:59:59。

3.3 大站快車站點選擇

得到需要開行快車的時間段和運作方向後為了确定大站快車的停站點,采取以下方法确定站點分擔客流比率:

計算每個時間段的總刷卡人數Tn,然後再對每個時間段的總刷卡人數Tn取線路有刷卡資料的站點數量Sn的平均值

基于智彙卡的公交大資料應用研究

,若站點平均刷卡人數

基于智彙卡的公交大資料應用研究

<Tj(j=1,2,3,…,32),則确認此站點為大站快車的停站;

基于智彙卡的公交大資料應用研究

其中,Tn為每個時間段的總刷卡人數;Sn為每個時間段線路有刷卡資訊的站點數;

基于智彙卡的公交大資料應用研究

為每個時間段線路有刷卡資訊的站點數的平均刷卡人數;n為取1,2,3,4分别對應下行上行12:00:00-12:59:59、下行17:00:00-17:59:59、上行18:00:00-18:59:59、下行20:00:00-20:59:59。

經計算,

基于智彙卡的公交大資料應用研究
基于智彙卡的公交大資料應用研究

通過計算得出開行大站快車的停站點如圖4~圖7,其較為直覺地說明了利用以上方法得到的公交線路組合的服務模式。全程車服務停靠全部的線路站點,大站快線車輛停靠線路中客流量較大的站點,用黑色實心三角标出。

基于智彙卡的公交大資料應用研究

圖4 12:00:00-12:59:59服務模式 下載下傳原圖

基于智彙卡的公交大資料應用研究

圖5 17:00:00-17:59:59服務模式 下載下傳原圖

4 結論

(1)結合南京市的公交智彙卡資料對公交大資料的多中繼資料結構特征進行分析、對多中繼資料進行處理,包括資料清洗、資料選取、資料異常值處理以及市民卡交易資料與GPS資料的比對。

基于智彙卡的公交大資料應用研究

圖6 18:00:00-18:59:59服務模式 下載下傳原圖

基于智彙卡的公交大資料應用研究

圖7 20:00:00-20:59:59服務模式 下載下傳原圖

(2)通過公交大資料可以精确的對公交服務水準,即公交站點可達性、公交線路可達性和公交便捷性,進行評價。為後期公交服務水準的提高提供科學依據。

(3)通過分析客流分擔率及采用不均衡系數法,利用2017年3月6日至2017年3月12日南京37路公交大資料,确定了大站快車的停站時間和停站點。

參考文獻

[1] 陸化普,孫智源,屈聞聰.大資料及其在城市智能交通系統中的應用綜述.交通運輸系統工程與資訊,2015,15(5):45-52.

[2] Ahas R,Aasa A,Slim S,et al.Daily rhythms of suburban commuters’movements in the Tallinn metropolitan area:Case study with mobile positioning data.Transportation Research Part C Emerging Technologies,2010,18(1):45-54.

[3] 于淵,雷利軍,景澤濤,等.北鬥衛星導航在國内智能交通等領域的應用分析.工程研究-跨學科視野中的工程,2014(1):86-91.

[4] Gentili M,Mirchandani P B.Locating sensors on traffic networks:Models,challenges and research opportunities.Transportation Research Part C Emerging Technologies,2012,-10-24(9):227-255.

[5] Bachmann C,Abdulhai B,Roorda M J,et al.A comparative assessment of multi-sensor data fusion techniques for freeway traffic speed estimation using micro simulation modeling.Transportation Research Part C Emerging Technologies,2013,26(1):33-48.

[6] 何非,何克清.大資料及其科學問題與方法的探讨.武漢大學學報理學版,2014,60(1):1-12.

[7] 羅雲輝.基于IC卡和GPS資訊的公交客流及公交服務水準分析和評價方法研究.2016年中國城市交通規劃年會,2016.

[8] 肖華剛.基于客流資料挖掘的公交時刻表的研究.北京交通大學,2010.

[9] 井國龍.基于多源資料的正常公交分層次服務水準評價模型.北京交通大學,2010.

[10] Carrasco N.Quantifying reliability of transit service in Zurich,Switzerland:case study of bus line 31.Transportation Research Record:Journal of the Transportation Research Board,2012(2274):114-125.

[11] Feng W,Figliozzi M A.Empirical analysis of bus bunching characteristics based on bus-11-AVL/APC data.2015.

[12] Mazloumi E,Currie G,Rose G.Using GPS data to gain insight into public transport travel time variability.Journal of Transportation Engineering,2009,136(7):623-631.

[13] Ma Z,Ferreira L,Mesbah M,et al.Modelling bus travel time reliability using supply and demand data from AVL and smart card systems.Transportation Research Record Journal of the Transportation Research Board,2015,2533:17-27.

繼續閱讀