
本文摘自《測繪學報2021》第9期(GS(2021)第6102号)
一種地理道路網交通信号智能協同控制方法
鄭偉 1,2
, 郭仁忠 1, 2, 馬丁 1, 2, 趙志剛 1, 2
, 李曉明 1, 2
1. 廣東深圳建築與城市規劃學院智慧城市研究所, 廣東 深圳 518060;2. 深圳市空間資訊智能感覺與服務重點實驗室, 廣東深圳, 518060
基金項目:國家重點研發計劃(2018YFB2100700;2019YFB2103104;2019YFB210310);中國博士後基金(2019M663070)
摘要: 城市交通運作效率是影響城市生産力發展的重要因素之一,也是智慧城市建設過程中的重要研究課題。随着計算機技術的發展,人工智能,特别是強化學習,在交通信号控制中發揮着重要作用。目前,基于強化學習的交通信号控制主要針對單一交叉路口或城市主幹道進行優化,對城市地理道路網區域協調控制的研究較少。基于馬爾可夫的序列決策,提出一種基于強化學習的雙層智能體協同控制方法。第一層,對于單個交叉路口實作粗略訓練,智能體通過觀察每個車道的長度來控制交叉口的信号比對,實作單個交叉路口不堵塞;本文以甯波某中學區的交通協調為優化目标進行實驗。結果表明,與原固定時間方案相比,該控制方法具有更高的通過效率。
關鍵詞: 地理路網 交通信号控制 協同控制 加強學習
引用格式:鄭偉、郭仁忠、馬丁等一種地理道路網交通信号智能協同控制方法。測繪學報, 2021, 50(9): 1203-1210.DOI: 10.11947/j.AGCS.2021.20210191
[2] 鄭晔, 郭仁忠, 馬丁, 等.地理道路網絡交通信号多智能體協同控制[J].大地測量學報, 2021, 50(9): 1203 -1210 .DOI: 10.11947/j.AGCS.2021.20210191
閱讀更多:http://xb.sinomaps.com/article/2021/1001-1595/2021-9-1203.htm
介紹
随着中國汽車數量的增加,交通擁堵已逐漸成為城市管理中最棘手的問題之一。城市路網占據了整個城市交通的大部分,通過道路網中關鍵交叉口的時間和階段協調,提高交通營運效率是智慧城市建設的關鍵研究内容。在十字路口實作傳統的交通信号計時方法通常有兩種方法:(1)繪制道路空間資訊,然後通過測量幾何資訊來實作它,以及(2)建立數學模型以找到目标函數的最優解。以綠波協調為例,傳統方法利用主幹道信号燈與汽車綠波速度之間的距離,建構混合線性規劃方程,并以最大的綠波帶寬求解方程。上述方法有以下局限性:(1)所有車輛必須以相同的速度(即綠波速度)行駛,一旦少量車輛與綠波速度差距較大,将破壞整個隊列,導緻綠波效果差;
計算機技術的發展推動了模糊邏輯控制、遺傳算法、專家系統等機器學習算法引入智能交通領域。在衆多機器學習算法中,深度強化學習(DRL)使智能能夠基于馬爾可夫的決策理論在環境中做出相應的決策,并對其行為決策給出回報,使智能能夠找到環境中具有最高回報值的序列決策。智能交通信号控制系統通過定義交通場景中的行為矢量、狀态矢量和傳回功能,實作交通信号燈的智能控制。随着5G和雲計算技術的發展,DRL技術在流量管理方面取得了新的突破。文獻介紹了一種交通控制系統,該系統支援使用DRL在汽車網絡和5G環境中的雲和邊緣進行動态排程。提出并應用一種基于邊沿計算的DRL流量采集方法,以緩解交通擁堵。文檔:從智慧城市建設的角度設計DRL信号控制系統,并與多個十字路口合作提高整體交通吞吐量。完善了基于DRL的信号控制算法的細節,其中智能體的狀态向量是劃分為網格後的交通流資料,決策行為函數是交通信号燈的持續時間變化,傳回函數是兩個周期之間的累計等待時間差。文獻中提出的DDPG-BAND算法,通過DRRL,協調城市主幹道的綠波,實作城市主幹道的協調控制。
一般來說,DRL技術已經比較成功地應用于交通信号控制,但目前的研究一般局限于單一交叉路口或城市主幹道,基于地理道路網絡的多智能交通信号協同控制較少。基于城市地理路網和增強學習的特點,提出一種基于強化學習的雙層信号協同控制訓練方法,并将該方法應用于甯波某中學區路網。通過比較仿真器中的行駛時間、吞吐量和停車時間與傳統計時方法,證明了該方法的可行性和有效性。
1 本文的方法
1.1 馬爾可夫的決策過程
強化學習注重智能體在動态環境下的持續試錯和回報訓練,使智能體能在變化的環境中獲得最大的累積回報。強化學習理論是馬爾可夫決策過程(馬爾可夫決策過程,MDP),由三個基本的細胞狀态向量(也稱為觀察向量)S、決策向量A和傳回函數R組成。智能體在決策行為執行後與環境互相作用,其狀态從S1傳遞到S2,狀态傳遞矩陣記錄為P。在執行序列決策的過程中,假設MDP公式(1)中表示的下降率為Y(γ∈0,1),則目前決策比曆史決策具有更大的影響力。
(1)
在MDP問題中,智能體不同狀态下的決策行為不同,政策函數表示智能在目前狀态下做出多個候選決策的可能性,輸入參數為目前狀态s(s∈S)和決策向量a(a∈A),輸出結果是每個候選決策的可能性。如果π表示政策函數,則π (s,a) 表示情報機構在狀态 s 條件下執行政策 a 的機率。如果智能體遵循 MDP π政策函數,則第 t 個執行決策的傳回值為 Rt,将其狀态從 st 傳輸到 st1 并擷取傳回值 rt 的過程表示為
(2)
MDP的回報總和表示為
(3)
從上面的公式來看,不同的政策函數會導緻智能體執行不同行為政策的不同機率,而不同的行為政策會産生不同的回報值,強化學習的政策函數滿足整個序列決策的總回報值。優秀的政策功能不僅滿足了目前決策的最大回報值,而且保證了整個序列決策過程的整體回報總和最大化。由于智能體政策函數的π(s,a)是狀态的機率轉移過程,是以狀态動作值函數Q s(s,a)表示智能體在狀态初始狀态下傳回的數學期望,根據政策函數π
(4)
是以,MDP問題的本質是找到π的最優政策函數,使智能體的決策行為從任何狀态S'都能滿足狀态動作值函數Q s(s,a)獲得最大值。根據伯曼方程,第t個決策的狀态動作值函數僅與t-1決策的狀态動作值函數相關,是以狀态動作值函數可以簡化為
(5)
在深度增強學習中,智能體将狀态動作值存儲到由s和a索引的深度神經網絡中,并通過不斷與環境互動并從獎勵函數擷取回報來更新神經網絡,最終可以使存儲在神經網絡中的狀态動作值正确引導智能體做出環境中最高傳回值的序列決策。
1.2 基于MDP地理道路網的交通場景設定
在本文中,智能體改變信号燈各相位的綠燈長度,達到交通協調的目的,場景設定如下:
(1)當信号燈呈綠色時,相位差由智能體的智能決策決定。
(2)智能體不改變信号燈的相序。
(3)信号燈的黃燈持續時間固定在2 s。
基于上述預設條件,方法分為兩層(圖1):第一層是工作智能,其職責是優化單個十字路口,確定每個十字路口智能體可以調整各自十字路口的綠燈長度,以免造成交通擁堵。第二層是管理智能,其職責是協調工作智能,提高地理道路網的整體交通效率。
圖1 雙層協同優化政策 圖1 雙層協同優化政策
圖選項
通過将地理道路網交通場景的各個變量的特征提取到伯曼方程中,可以實作智能體在訓練後對交通信号燈的自動調節。下面重點介紹如何在上述兩層智能中定義 MDP 中的狀态向量、決策向量和傳回函數。
1.3 單結工作智能集政策
1.3.1 工作智能的狀态向量S
在地理道路網的交通場景中,工作智能機構的狀态向量必須能夠反映目前交叉路口的交通擁堵狀态。如圖 2 所示,隊列的長度表示在交通路口等待紅燈變綠的車輛總數。在單個交叉路口,車輛排隊的長度反映了交叉路口各個方向的交通流量,這是決定相應相位綠燈時間的關鍵因素。除了隊列的長度外,車輛的重量和長度直接決定了車輛的起動速度和轉彎所需的時間。是以,本文将兩種類型的交通車輛區分為狀态向量的權重值,一種用于重量大于15 t或長度大于12 m的大型車輛(如泥漿車或公共汽車),另一種為普通小巴。
注:矩形表示行駛中的車輛,車輛後部的顔色表示不同的車輛行駛狀态,綠色表示車輛的正常駕駛,黃色表示車輛減速,紅色表示車輛正在等待紅燈。
圖2 道路交叉口。2 交通十字路口[17]
通過上述權重隊列後長度,定義了兩個粒度狀态向量:(1)粗粒度狀态向量僅計算道路每個方向上權重排隊長度的總和,例如,圖2顯示粗粒度狀态向量的維數為4,每個維數的值是每個方向上權重車輛的總和;
1.3.2 工作智能的決策向量A
從MDP理論中可以得到,政策函數π根據狀态向量S和決策來計算智能到A的下一個決策,是以有必要定義地理道路網絡下工作智能的決策向量A。智能體改變信号燈各相位的釋放時間,達到交通協調的目的,工作智能體的決策向量是一個高維陣列,儲存信号燈各相位的綠燈持續時間。在本文中,單結工作智能體的決策向量A應滿足以下條件:
(1)決策向量的每個次元的值都是正整數(一般信号燈的綠燈持續時間沒有小數)。
(2)決策向量各次元的值必須大于固定最小值(信号周期表示信号燈從綠色變為紅色再變為綠色再到綠色的整個時間長度,并且必須大于與交叉路口寬度相關的固定值,以確定行人能夠以正常速度通過)。
(3)決策向量的所有次元值的總和必須小于固定最大值(信号燈周期意味着它不能超過普通人可以容忍的範圍,例如5分鐘)。
智能體給信号燈相位開綠燈後,交通模拟器在運作一定時間後,通過傳回函數評估智能體的決策,是以如何正确定義傳回函數是該算法的關鍵。
1.3.3 工作智能的傳回函數R
傳回函數R的定義決定了智能體政策函數π的優化目标,而工作智能體優化訓練後的優化目标是保證每個交叉路口都不會被交通堵塞,是以必須首先定量定義堵車。如圖2所示,車道堵塞線位于道路的盡頭,作為衡量交通擁堵的基線。如果隊列長度超過車道阻塞線,則認為在此交叉路口發生了交通擁堵。在典型情況下,車輛阻塞線與道路盡頭之間的距離不小于道路長度的20%,即當車輛排隊長度不超過車道總長度的80%時, 在交通方向上。交通擁堵次數表示,在一定時間内,所有車道排隊的長度超過了交通擁堵線數之和,這是工作智能體交通管制的基礎。基于上述定義,return函數設定如下:
(1)如果規定前的堵車次數為0,則規定後的堵車次數大于0,表明交通狀況從交通擁堵變為規定後的堵車狀态,傳回傳回值-1。
(2)如果規定前的堵車次數大于0,則規定後的堵車次數為0,表示規定後交通狀況由擁堵狀态變為非阻塞狀态,傳回值為1。
(3)如果規定前的交通擁堵次數減少或增加20%以上,則規定效果更明顯,傳回值分别為1和-1。
(4)其他情況表明監管效果不明顯,不足以判斷是非曲直,傳回的傳回值為0。
1.4 管理智能身體協同優化政策
工作智能可以保證其交叉路口不會被交通堵塞,即每個工作智能體的交通擁堵次數為0。在此基礎上,管理智能進一步協調對上述工作智能的控制,確定整個地理道路網的最佳交通運作效率。管理智能體的狀态向量和決策向量與工作智能體相似,其次元是所有工作智能次元的總和,分别表示所有交叉點的排隊長度和綠燈時間。是以,本節主要定義用于管理智能的傳回函數。
管理智能優化目标的定義必須随着不同的場景而變化。例如,高峰期應通過信号協調實作路網機關時間通過更多車輛的整體容量,是以将早期高峰的優化目标定義為道路網絡的整體吞吐量,而低高峰期應更多地考慮通過信号協調減少道路網絡中車輛的平均等待時間。交通效率因子表示指定場景下工作智能的優化目标(例如,早高峰時段的交通效率表示機關時間内場景内交叉口吞吐量的總和),智能管理的傳回函數定義如下:
(1)如果任何一個交叉路口的交通擁堵次數在規定後大于0,則直接傳回傳回值-1。
(2)如果調控前後流量效率系數提高10%,調控效果優異,則傳回1的傳回值。
(3)如果調節前的流量效率系數比調節後降低10%,則調節效果較差,傳回-1的傳回值。
(4)其他調節效果不明顯的情況,傳回傳回值為0。
2 測試分析
2.1 測試資料和測試環境簡介
如圖3所示,甯波某中學區位于甯波市漳州區,是甯波市市區人口較稠密的地區之一。路段從福明路向西至東的桑田路,北至南至民安路,由4個信号燈組成,由12個地理道路網組成。
圖3 測試區域内的流量網絡
圖3 實驗區交通道路圖示
測試交通資料來自2020年12月6日上午7:00至9:30之間測試區域内的交叉路口攝像頭,并使用目标跟蹤算法平均獲得(表1)。測試資料包括每個十字路口的四個進站方向和三個出口方向,左側,中間和右側,并區分大型公共汽車和小型汽車。
表 1 路通資訊頁籤 1 路通流量
本文将實驗算法部署在一台擁有24核CPU和32 GB記憶體的高性能計算機上,作業系統使用CentOS 7。該算法在Python 3.7.3中實作,神經網絡使用Tensorflow1.14建構,交通環境在模拟軟體SUMO 1.3.1(德國航空航天中心運輸系統研究所開發的開源軟體)中運作。
2.2 測試結果分析
2.2.1 工作智能訓練的結果
本節探讨在厚度的兩個狀态向量下,在單個交叉點進行智能體訓練的過程。在實驗中,智能體以兩個信号間隔觀察交叉點處的隊列長度,進而産生了輸入向量更新狀态動作值的神經網絡,模拟持續時間為7200 s作為疊代。圖 4 表示每個交叉點處的工作智能的流量系數與疊代次數,其中縱坐标表示疊代中交通擁堵次數的累積和,水準坐标表示疊代次數。實驗結果表明,随着疊代次數的增加,4個交叉路口的交通擁堵系數呈下降趨勢,當疊代次數約為100次時,交通擁堵系數收斂。此外,在粗粒度狀态向量中訓練的交通阻塞系數的穩定性和效果甚至更好。這是因為粗粒度狀态向量計算隊列長度(以邊為機關)。當每個邊緣的車輛交通需要由信号燈的多個相位控制時,粗粒度狀态矢量使得無法準确區分哪個相位需要更多的綠光持續時間,是以其訓練相對難以收斂。
圖4 單結工作智能體訓練測試結果 圖4 單交叉點工作代理的訓練結果
2.2.2 管理智能身體訓練結果
從2.2.1節教育訓練中獲得的工作智能放置在地理道路網絡中,在管理智能的協調下實作地理區域的協調教育訓練。本文測試智能體,每3個信号周期更新一次狀态動作值神經網絡,模拟10 800秒的疊代持續時間。本文選取地理道路網中車輛平均行駛時間、平均停車時間和吞吐量三個名額作為優化交通效率的因素。如圖 5 所示,三個驗證名額經過訓練,效率更高(平均行駛時間和停車時間更少,吞吐量增加),并在疊代達到一定次數時收斂,表明該方法有效。據計算,最近30次疊代比最初的30次疊代少19.12%,平均行駛時間減少21.47%,平均停止次數平均減少3%。
圖5 地理道路網絡管理智能車身訓練測試結果 圖5 地理道路網絡管理代理的訓練結果
2.2.3 交通效率因素比較
為了驗證該方法的有效性,在地理道路網中比較了該方法實作的時間方案、原始繪制方法和經典韋伯斯特方法的交通效率。實驗中,加入10組随機種子,随機種子在指定的交通流條件下能夠産生不同的起跑模式,這10個随機種子下道路網的平均交通效率可以保證明驗的公正性。如圖6所示,實驗以270 s作為統計周期,比較三種方法的交通效率系數。結果表明,該方法的平均行程時間比原制圖法低7.03%,比經典韋伯斯特法低2.87%,比原制繪圖法少12.56%,比經典韋伯斯特法少10.49%,8.3%的通量率比經典韋伯斯特法高8.3%。一般而言,本文的方法在車輛的平均行駛時間、停車次數和吞吐率方面具有優異的性能。特别是在停止次數方面,其他兩種方法随着循環的表觀效率而開始下降。這是因為傳統方法通過數學計算獲得固定時序方案,而該算法的智能實體能力通過每個方向的排隊長度實時改變時序,是以具有更好的适應性。
圖6 3 交通效率因素與圖6的比較 3 個交通評價名額對比
3 結論
基于馬爾可夫序列決策的特點,提出一種基于強化學習的雙層智能體協同控制訓練方法。在第1層為單個交叉口實作粗略訓練,智能體通過觀察每個車道的長度,當隊列長度控制信号比對時,實作單個交叉口不堵塞,第二層将多個智能體模型粗略訓練後進入地理網絡, 實作多環節協同微調訓練。實驗結果表明,與傳統算法相比,該方法的行駛時間縮短了7.03%,停車次數減少了12.56%,吞吐量提高了8.3%。此外,基于強化學習的交通信号燈協調控制,可以根據交叉路口車道的排隊長度實時改變計時方案,更好地适應複雜多變的交通環境。
作者介紹
第一作者簡介:鄭偉(1989-),男,博士後,研究方向為地理AI。電子郵件: [email protected]
通訊作者:趙志剛。郵箱:[email protected]
一審:張豔玲
評論:宋啟凡
終審判決:金軍
以前的建議
資訊
《測繪學報》主編楊元喜入選第六屆中國科學技術協會優秀科技論文
《測繪雜志》成功舉辦"泛地圖賦能行業創新"分論壇
湖北燕嘉實驗室2021年科研人員招聘公告
中國煤炭航空遙感集團有限公司(局)2022年大專畢業生招聘公告
會議
首屆中國生态系統遙感研讨會(通知3号)
2021年全國博士學術論壇(測繪科學技術)暨國務院學位委員會測繪學科評審組工作會議(通知2号)
會議|通知2021中國地理資訊科學理論與方法學年會通知(第2号)
c
測繪雜志
智能測繪|李清泉:動态精密工程測量技術與智能測繪|應用巨力:測量機器人的關鍵技術
智能測繪|艾婷婷:深度學習賦能對地圖映射的一些思考
智能測繪|劉萬辰:時空知識中心研究進展與應用
測繪公告
如何識别網際網路"問題地圖"?
上海城市數字化轉型的新地圖
全站圖像及圖像測量的發展與展望
2021年第8期測繪公告
北京測繪
北京測繪2021年第7期建議書摘要(下圖)
北京測繪2021年第7号建議書(上文)
北京測繪,2021年第6期建議書摘要(下圖)
北京測繪2021年第6号總結建議(上載)
測繪科學與技術學報
2021年第一期推薦《測繪科學與技術學報》第一期
摘要|推薦于《測繪科學與技術學報》2021年第3期
摘要|《測繪科學與技術學報》2021年第2期推薦
摘要|2021年《測繪科學與技術學報》第1期推薦
地球資訊科學學報
2021年第8期《地球資訊科學雜志》
特刊草稿:社會認知與地理資料挖掘(征求意見稿)
測繪工程
摘要|2021年第5号測繪項目推薦
摘要|2021年第4号測繪項目推薦
摘要|對2021年第3号測繪項目的建議
摘要|在2021年第2期《測繪工程》中推薦
中國空間科學與技術
摘要|推薦于《中國空間科學技術2021》第四期
摘要|推薦于《中國空間科學技術2021》第三期
摘要|2021年《中國空間科學與技術》推薦
摘要|推薦于《中國空間科學技術2021》第一期
衛星應用
<h1頭條起源"h1">總結|衛星應用,第7期,2021年</h1>
摘要|衛星應用,第6期,2021年
摘要|衛星應用,2021年第5期
"衛星應用"成"智力素描科學服務"媒體平台!
《大地測量與地理資訊科學學報》
特刊草稿|論文征集:空間人文與社會地理學(SHGSS)
論文選|測繪雜志(英文版)"GNSS和LBS"特刊
《衛星導航》
衛星導航科學編輯的招聘
多源導航 (i) |衛星導航推薦
導航和定位應用程式|衛星導航文章選擇
<h1 toutiao-origin"h1">衛星導航論文:期待PPP / PPP-RTK領域的優秀論文</h1>