温旭丽 魏琳 胡天慈
东南大学成贤学院
摘 要:论文以基于智汇卡的公交大数据为分析研究对象,对公交大数据在公交服务水平评价以及运营调度方面的应用展开研究。首先分析了智汇卡大数据多源数据特征,并对多源数据进行处理,具体包括:数据的清理、选取、异常值的处理以及智汇卡交易数据与GPS数据的匹配,最后选定数据优质的南京市37路公交作为应用研究对象。运用大数据对37路公交的服务水平进行评价,包括站点可达性、线路可达性、服务便捷性。同时运用大数据分析37路公交的客流特征,制定组合调度形式提高其服务水平。结果表明:运用大数据可以更加科学的进行公交服务水平的评价以及优化公交的调度形式。
关键词:公共交通;大数据;多源数据融合;服务水平评价;调度优化;
基金:江苏省高校“青蓝工程”资助;江苏省交通运输科技项目(项目编号:2019Y52);东南大学成贤学院青年教师科研发展基金项目(z0013);
互联网改变了人类生活的格局,随着信息技术、通信技术、计算机技术等的快速发展,数字城市与智慧城市接踵而来,城市的建设促进了移动互联网、物联网、云计算等技术的发展,并直接推动了大数据(Big data)时代的来临。在交通领域,传统的数据采集逐渐向电子化、信息化等高级应用转变,推动了交通大数据的形成与发展。从传统的公交人工售票转向自动交易收费;从传统的感应线圈和手持雷达等固定检测以及基于浮动车的移动检测,转向智能手机、北斗-7-卫星导航系统等新型检测方式。同时,信息化发展的集约交通传感器布局和可靠的多源数据融合在不断的发展,交通大数据为“感知现在、预测未来、面向服务”提供了最基本的数据支撑,成为解决城市交通问题的最基本条件。有不少学者对IC卡数据的应用展开了研究,但目前基于公交IC卡数据的公交服务水平分析及公交调度改善的研究较少,罗云辉仅是对公交的运行速度、高峰排队情况进行分析,缺少详细的对时间、空间上对公交的服务水平进行评价;肖华刚主要是基于公交数据对公交运行时刻表进行了优化,并未对其运行状态和服务水平进行细致的评价;井国龙使用了公交IC卡数据及GPS数据对公交运行进行了服务层级的评定,基于Logit模型构建了服务水平评价模型,但是其模型更偏向于公交运行方面,尚未对公交乘客角度上形成完整的考虑。国外学者利用公交AVL数据研究了公交车辆的运行可靠性,基于速度、时间、到站准时性等指标评价了公交车辆的运行状态。但是由于客流分布的空间不均衡性特点,不考虑客流的因素不可避免的使得研究结论与实际有偏差。
1 多源数据融合与处理
1.1 多源数据特征
公交GPS数据在收集时,由于设备自身或者传输等原因,数据中绝大部分经纬度信息都在一定程度上存在问题。主要存在问题如下:
(1)数据中存在大量的异常值;
(2)随着时间变化经纬度信息不变异常;
(3)数据存在缺失。
1.2 多源数据处理
1.2.1 数据清理
由于各种原因,数据的异常现象在公交数据的采集、存储和传输过程中是无法避免的,例如数据缺失、数据不一致、数据错误等。对于公交系统数据而言,其数据清理需要注意数据缺失、数据错误、冗余错误、数据一致性等问题。为了满足准确的数据分析,提高数据的质量,满足预期数据分析的要求,需要对数据进行筛选与清理,完成数据预处理。
1.2.2 数据选取
基于现状获取完整数据的局限以及目前GPS数据问题的分析,需要对现状合适GPS数据进行提取,选择数据质量最好的公交线路进行分析,以减少因数据自身质量的问题影响对公交客流的分析。通过对数据自身问题的分析以及不断地实验,有以下两种思路对GPS数据进行批量提取:
(1)若bus_no(公交车辆号)对应的经纬度相同且相同个数大于50,则剔除相应的bus_no;计算剩余的bus_no对应的不同经纬度的个数;剔除不同经纬度的个数小于5的bus_no;计算不同线路其各自对应的bus_no数。
(2)计算各bus_no对应的相同经纬度的个数;选取bus_no对应的不同经纬度数大于10的bus_no;计算不同线路其各自对应的bus_no数。
以上两种途径中选择的阈值可根据各线路实际情况的不同进行相应的改变。
最后,可以根据得到的结果,选择对应的bus_no最多的公交线路。这两种方法的好处是能够批量处理百万级的GPS数据,大大节约了数据筛选时间,也使得筛选过程与结果一目了然,极大地提高了选取数据的质量。
1.2.3 数据异常值处理,选定研究路线
将某一组数据的经度和纬度在所有站点的经纬度中搜索,误差可以在0.0025范围内波动的,都符合该站点的要求,可以作为该站点的一组交易数据。因为设备统计不精准,或者公交车并没有准确停靠在站点等原因,一组交易数据的经纬度会与站点的经纬度存在一定的偏差。0.0025是我们在多次试验中得到的误差容许范围。在得到的数据中,0.0025即不会使错误数据被计算在内,也不会使一组数据因存在误差而被统计为两个站点。所以,符合容许误差的数据即可算作一次该站点的成功交易数据。
通过对合适公交线路的选取,本次选择line_no为01015037的公交线路(37路)。37路公交路线较于其他线路其数据质量更优,但是由于车载GPS设备等原因,仍有部分数据存在缺失或异常。需要对数据进行进一步的缺失值处理,通过观测,特定车号对应的有经纬度信息全部为0。这种可能由于此车车载设备故障等原因,这种往往无法使用其他已知数据替代,也无法根据经验或其他已知数据进行推测,在数据分析时只能将之删除处理。对于另外一种情况,通过对缺失数据上下观察,可以发现其与上下数据往往有着联系,刷卡的间隔时间很短,这种情况往往能够通过设定相应的阈值(1min),通过编程实现数据的匹配,即借用上下记录的经纬度信息,作为替代数据。基于上述分析,对37路公交线路异常值的处理,异常值减少了18.78%。
1.2.4 市民卡交易数据与GPS数据的匹配
由于一天内同一市民卡可能进行多次刷卡,同一时间内(精确到秒)会有多张市民卡产生交易信息,因此不能单独依照某一字段进行匹配,但是如果结合卡号和交易时间这两个信息,便可唯一匹配两种数据源(相当于从空间和时间维度出发进行匹配)。基于上述对匹配过程的考虑,完成相关程序的编写实现百万级数据量的批量匹配,从而获得卡号、卡类型、交易时间、车辆号、交易金额、换乘类型、经纬度信息。
2 基于公交大数据的应用———公交服务评价
2.1 公交站点可达性评价
公交的站点可达性指标,通过公交车辆的行车频率来衡量。对37路公交,选择上行、下行线路的起点站紫金明珠、万达广场北分别作为参考断面,分不同时间段统计通过的车辆数,并除以时间,得到平均行车频率。
表1 南京公交37路行车频率(单位:班/h) 下载原图
从表1可知,南京公交37路的高峰行车频率最高,约7班/小时,即平均每8分钟就有一班车发出;平峰时发车频率约6班/小时;周末行车频率较工作日偏低,仅5班左右,尽管如此,乘客周末的平均最大等车时间也不会超过12分钟。总体而言,37路公交行车频率较高,发车间隔小于10分钟。
2.2 公交线路可达性评价
公交线路的可达性采用服务时长作为评价指标。根据南京公交37路的运营方提供的时刻表,上行线路的首班车时间为05:30,末班车时间为22:10,服务时长16小时40分钟;下行线路的首班车时间为6:30,末班车时间为23:00,服务时间为16小时30分钟;全天的公交服务时间覆盖率为69.44%。
公交刷卡出行者是所有公交出行者中的一部分,由于首、末班车出行者数量较少,市民卡数据难以覆盖到所有站点,无法从市民卡数据中获取所有站点的首、末班车时间。对于区分上下线路的公交市民卡数据,取该方向当日的首条刷卡记录作为首班车,当日的最后一条刷卡记录作为末班车,以此推算每日不同方向的首末班车时间。
刷卡站点一定位于起点站下行方向,利用首末条刷卡记录推算线路首、末班车驶离起点站的时间,即首末班车时刻表。通过一周的数据分析可知,37路上行方向发车刷卡最早时间是5:23,末班最迟刷卡时间是23:21;下行方向发车刷卡最早时间是5:23,末班最迟刷卡时间是23:39。数据表明:无论是上行还是下行线路,首条记录时间早于时刻表,末条记录时间远晚于时刻表,说明公交37路实际提供的服务时长是可能多于时刻表服务时长的。
2.3 公共服务便捷性评价
从公交出行者的角度出发,对公交服务便捷性最直观的感受就是在站台的候车时间,乘客在站台的候车时间则受到车辆到达站点时间间隔变化的影响。
首先做出如下假设:
(1)乘客随机独立到达候车站点,即乘客到达站点的时刻不受公交时刻表及其他乘客的影响;
(2)公交车辆按既定发班顺序先后到达站点,运行过程中不存在相互超车;
(3)乘客优先选择首先到达站点的公交车辆,并且所有乘客都可以一次上车,没有乘客留站的现象。在满足这些假设的前提下,乘客在公交站点的平均候车时间可以表示为:
其中,s为车头时距偏离的标准差;h为标准车头时距;
计算公交37路所有站点的乘客平均候车时间,并计算了不同时段全线平均候车时间与不同时段大于平均候车时间的站点比例。由计算结果可知,公交37路的乘客平均候车时间在8~9分钟左右,高峰时段候车时间最短。在周末和平峰时段,超过30%站点的平均候车时间会大于线路平均候车时间,说明在这两个时段,公交到达时间不够稳定。对于上行线路,江东门纪念馆-水西门大街、江东门区间与水西门大街、江东门-江东万达广场区间的平均候车时间较长,对于下行线路,小天堂-苜蓿园大街区间的平均候车时间较长。考虑到该线路穿越南京中心城区,且服务不稳定的区间位于线路下游方向,可以认为中心城区不稳定的交通情况导致了公交37路的服务便捷性降低。
3 基于公交大数据的应用—公交调度优化
3.1 公交线路组合与服务模式改进
合理的调度形式可以有效的降低乘客的出行时间和公交公司的运营成本,同时直接提高人民生活质量和加快城市经济总价值的创造。以南京37路公交为例,根据前期对于公交IC卡数据的分析与处理,对37路进行调度优化研究。
3.1.1 公交线路组合与公交车辆调度形式
线路组合既可以称为一种调度形式,也可以认为是从普通线路中衍生出的线路形式。线路形式包括全程车、大站快车、区间车等,具体见图1~图3。利用公交运营快速灵活的特点,根据实际客流情况,可以采用不同的线路组合形式,如全程车和大站快车,全程车和直达车。
图1 全程车 下载原图
图2 区间车 下载原图
图3 大站快车 下载原图
3.1.2 大站快线公交线路组合适用条件
根据相关文献资料,实施大站快线组合调度的条件如下:公交线路长度一般在15km以上,站点数大于20个,以保证快车能分担一定的客流量;一般选择城市客运交通走廊或高峰时段运营的公交线路;采取大站快线组合调度的公交发车间隔一般小于20min;具有一定的道路条件,如公交专用道、公交优先信号等。
本次研究选择的南京公交37路,线路全长约17公里,横穿南京城区,途经多所高校、医院、商业综合体、公园等大型客流集散点,线路平均日出行量达1.5万人次以上;线路中设置公交车辆专用道路段约10km,双向六车道的路段占线路总长的70%以上。综上所述,南京公交37路具备实施大站快线公交组和服务的需求与条件。
3.2 公交客流分担率分析
客流具有时间分布和空间分布的不均衡性,由于智慧卡数据只有上车刷卡交易时间,故本文采取不均衡系数法来确定快车调度形式。方向不均匀系数Ka的计算如式(2):
其中,Qa为统计时间内线路最大单向客运量;
为统计时间内线路平均单向客运量。
一般来说,Ka<Ka0(1.2~1.4);则应采取调整措施,比如错开沿线有关单位上下班时间或增加运输车次、开设快车等;
首先,按照车次及时间来判断刷卡信息是属于上行或下行,之后按照时间及站点来分类,以1小时为时间间隔,得到了表2。
表2 37路上下行方向不均匀系数 下载原图
Ka0取1.35,根据条件Ka<Ka0,需要开行快车的时间段和运行方向是:
上行:12:00:00-12:59:59、18:00:00-18:59:59;
下行:17:00:00-17:59:59、20:00:00-20:59:59。
3.3 大站快车站点选择
得到需要开行快车的时间段和运行方向后为了确定大站快车的停站点,采取以下方法确定站点分担客流比率:
计算每个时间段的总刷卡人数Tn,然后再对每个时间段的总刷卡人数Tn取线路有刷卡数据的站点数量Sn的平均值
,若站点平均刷卡人数
<Tj(j=1,2,3,…,32),则确认此站点为大站快车的停站;
其中,Tn为每个时间段的总刷卡人数;Sn为每个时间段线路有刷卡信息的站点数;
为每个时间段线路有刷卡信息的站点数的平均刷卡人数;n为取1,2,3,4分别对应下行上行12:00:00-12:59:59、下行17:00:00-17:59:59、上行18:00:00-18:59:59、下行20:00:00-20:59:59。
经计算,
通过计算得出开行大站快车的停站点如图4~图7,其较为直观地说明了利用以上方法得到的公交线路组合的服务模式。全程车服务停靠全部的线路站点,大站快线车辆停靠线路中客流量较大的站点,用黑色实心三角标出。
图4 12:00:00-12:59:59服务模式 下载原图
图5 17:00:00-17:59:59服务模式 下载原图
4 结论
(1)结合南京市的公交智汇卡数据对公交大数据的多元数据结构特征进行分析、对多元数据进行处理,包括数据清洗、数据选取、数据异常值处理以及市民卡交易数据与GPS数据的匹配。
图6 18:00:00-18:59:59服务模式 下载原图
图7 20:00:00-20:59:59服务模式 下载原图
(2)通过公交大数据可以精确的对公交服务水平,即公交站点可达性、公交线路可达性和公交便捷性,进行评价。为后期公交服务水平的提高提供科学依据。
(3)通过分析客流分担率及采用不均衡系数法,利用2017年3月6日至2017年3月12日南京37路公交大数据,确定了大站快车的停站时间和停站点。
参考文献
[1] 陆化普,孙智源,屈闻聪.大数据及其在城市智能交通系统中的应用综述.交通运输系统工程与信息,2015,15(5):45-52.
[2] Ahas R,Aasa A,Slim S,et al.Daily rhythms of suburban commuters’movements in the Tallinn metropolitan area:Case study with mobile positioning data.Transportation Research Part C Emerging Technologies,2010,18(1):45-54.
[3] 于渊,雷利军,景泽涛,等.北斗卫星导航在国内智能交通等领域的应用分析.工程研究-跨学科视野中的工程,2014(1):86-91.
[4] Gentili M,Mirchandani P B.Locating sensors on traffic networks:Models,challenges and research opportunities.Transportation Research Part C Emerging Technologies,2012,-10-24(9):227-255.
[5] Bachmann C,Abdulhai B,Roorda M J,et al.A comparative assessment of multi-sensor data fusion techniques for freeway traffic speed estimation using micro simulation modeling.Transportation Research Part C Emerging Technologies,2013,26(1):33-48.
[6] 何非,何克清.大数据及其科学问题与方法的探讨.武汉大学学报理学版,2014,60(1):1-12.
[7] 罗云辉.基于IC卡和GPS信息的公交客流及公交服务水平分析和评价方法研究.2016年中国城市交通规划年会,2016.
[8] 肖华刚.基于客流数据挖掘的公交时刻表的研究.北京交通大学,2010.
[9] 井国龙.基于多源数据的常规公交分层次服务水平评价模型.北京交通大学,2010.
[10] Carrasco N.Quantifying reliability of transit service in Zurich,Switzerland:case study of bus line 31.Transportation Research Record:Journal of the Transportation Research Board,2012(2274):114-125.
[11] Feng W,Figliozzi M A.Empirical analysis of bus bunching characteristics based on bus-11-AVL/APC data.2015.
[12] Mazloumi E,Currie G,Rose G.Using GPS data to gain insight into public transport travel time variability.Journal of Transportation Engineering,2009,136(7):623-631.
[13] Ma Z,Ferreira L,Mesbah M,et al.Modelling bus travel time reliability using supply and demand data from AVL and smart card systems.Transportation Research Record Journal of the Transportation Research Board,2015,2533:17-27.