天天看點

清華IEEE論文:利用新型訓練方法,幫自動駕駛決策擺脫“路側幹擾”

編譯 / Aaron 、曹錦

近日,來自清華大學的學者提出了一套基于自動編碼器實作的新訓練方法,使其能夠忽略輸入圖像中的無關特征,同時保留相關特征。與現有的端到端提取方法相比,該方法隻需要圖像級标簽,降低了标記成本。

清華IEEE論文:利用新型訓練方法,幫自動駕駛決策擺脫“路側幹擾”

研究者發現,通過訓練卷積神經網絡(CNNs)模型來處理編碼器的輸出,并産生一個轉向角來控制車輛,可驗證了該方法的有效性。整個端到端的自動駕駛方法可以忽略不相關特征的影響,即使這些特征在訓練卷積神經網絡的時候也不存在。

基于卷積神經網絡的自動編碼器

論文作者列出了相應算法的主要思想和基本過程:該系統由自動編碼器和自動編碼器組成如圖1所示。來自前置攝像頭的圖像作為輸入提供給自動編碼器。自動編碼器由編碼器和解碼器組成,編碼器的輸出作為CNN的輸入,CNN計算并輸出轉向角度來控制車輛。

清華IEEE論文:利用新型訓練方法,幫自動駕駛決策擺脫“路側幹擾”

(圖1、完整系統的示意圖,該系統包含一個自動編碼器來消除圖像中的無關特征,以及一個産生控制指令的CNN)

自動編碼器是一種人工神經網絡,它旨在以無監督的方式學習高效的資料編碼。它學習如何有效地對資料進行編碼,并将資料從編碼後的表示重構為盡可能接近原始資料的表示。自編碼器的兩個主要應用是降維和資訊檢索。雖然降維與我們的任務相似,但由于它們都需要從輸入中提取有用的特征,是以通常不會去除特征。

最近,自動編碼器被證明可應用于不同的任務,如圖像處理方面,自動編碼器可以達成圖像壓縮和圖像去噪,然而這些任務對精準的路側物體識别意義不大。

在圖形壓縮工作中,圖像被壓縮以降低存儲或傳輸的成本;在圖像去噪任務中,噪聲圖像被傳輸到原始圖像中。噪聲圖像作為輸入,原始圖像作為标簽來訓練網絡。另外,噪聲圖像應該與原始圖像完全相同。

從文中的例子來看,如果将不相關的物體作為噪聲處理,那麼圖像去噪的方法似乎可以用來提取相關的特征。但是,在實際駕駛場景中,天空、樹木等不相關的物體是無法去除的,是以這種方法并不可行。

Auto-Encoder如何配合CNNs

研究者提出,算法的目的是在保留所有相關特征的同時,從圖像中去除所有與決策無關的特征。為了降低标簽的成本,最好隻使用圖像級标簽訓練網絡。

同時,為了滿足端到端方法的定義,特征提取過程的輸出應該具有隐含意義。與CNNs相比,自動編碼器在這方面是一個更好的選擇:它不可能直接了解編碼器的輸出,而是将其轉換為原始輸入,因為它包含了和輸入一樣多的資訊。

解碼器的輸出和原始輸入之間總是有一些錯誤。換句話說,總有一些資訊丢失。在理想情況下,算法的目标是確定任何丢失的資訊隻包含不相關的特征,同時保留想要保留的特征。為了實作這一點,網絡需要被教導哪些類型的特征應該保留,哪些應該消除。然後,經過多次重複訓練過程,網絡就具備了從輸入中提取所需特征的能力。

那麼,CNNs在其中的作用又是什麼呢?我們系統的CNN體系結構如圖1所示,它包括三個卷積層和四個全連通層,其中最後一層輸出控制指令(即方向盤角度)。

訓練CNN時,自動編碼器的參數保持不變。在良好場景的專業駕駛測試過程中,訓練圖像會包含很多正常狀态的圖像。不過,一旦車輛偏離了目前車道的中心,CNN就可能無法做出正确的決定。

為了避免該問題,研究者采用如圖2所示的線上訓練方法:由網絡控制車輛,同時由專家提供控制指令。訓練過程中擷取的圖像将作為訓練資料,而專家給出的指令作為标簽,這些資料随後被用來訓練網絡。

由于網絡是随機初始化的,在訓練的早期,車輛經常處于異常狀态,避免了正常圖像過多的問題。

清華IEEE論文:利用新型訓練方法,幫自動駕駛決策擺脫“路側幹擾”

(圖2、CNN教育訓練過程。實線表示用于控制車輛的資訊流,虛線表示用于訓練模型的資訊流)

利用仿真實作的模拟器和

資料集描述(Dataset Description)

展示了仿真模拟器和資料收集過程,并将開發的系統與具有相同網絡結構的基線模型的性能進行了比較。

仿真環境采用PreScan建構,PreScan是智能車輛系統開發的仿真環境,使用者可以在其中設計逼真的交通場景。一旦特定的交通場景完成,該工具可以自動生成Simulink模型,用于測試自動駕駛算法。

為此,研究者制定了以下四個測試計劃。

1)測試方案一:算法在場景1-1進行訓練,在場景1-3和場景1-4進行測試。

2)測試方案二:算法在場景1-2進行訓練,在場景1-3和場景1-4進行測試。

3)測試方案三:算法在場景2-1進行訓練,在場景2-3和場景2-4進行測試。

4)測試方案四:算法在場景2-2進行訓練,在場景2-3和場景2-4進行測試。

清華IEEE論文:利用新型訓練方法,幫自動駕駛決策擺脫“路側幹擾”

(圖3、内置PreScan的場景)

自動解碼器訓練過程需要收集正、負樣本。在所建構的場景中,道路和車道标志是影響駕駛指令的主要因素,而樹木和天空則無關緊要。研究者先在模拟環境中随機拍攝圖檔,然後将每個圖像配置設定給一個資料集,如下所示。

如果圖像主要由道路特征組成,則将其歸類為陽性樣本。另一方面,如果圖像主要由樹木或天空特征組成,則将其歸類為負樣本。否則,如果相關特征和不相關特征的比例幾乎相同,則丢棄圖像。正、負樣本集如圖4所示。

在訓練CNN的方法中,用于訓練目的的資料是在訓練過程中收集的。前置攝像頭拍攝的輸入圖像尺寸為240 × 320 × 3。由于任務是保持在車道上,标簽即轉向角度可以通過跟蹤算法來确定,該算法可以控制車輛沿着車道的中心線行駛,且該跟蹤算法由PreScan環境提供。

清華IEEE論文:利用新型訓練方法,幫自動駕駛決策擺脫“路側幹擾”

(圖4、部分資料集用于訓練自動編碼器 )

綜合看來,該論文提出了一種新的訓練方法,即允許自動編碼器從輸入圖像中提取有用的特征,并将其應用到端到端自動駕駛方法中,以忽略不相關的路邊目标。

從中我們可以得到一些結論:首先,在訓練自動編碼器時采用正負交替采樣,編碼器可學會從輸入圖像中去除那些不相關的特征,進而保證輸出特征映射隻包含相關特征。在解碼器輸出的圖像中,不相關的物體,如樹木和天空,實際上是無法區分的,而道路和車道标記是清晰的。

同時,文中所提出的訓練方法僅依賴圖像級标記即可對自動編碼器進行訓練。與現有的端到端多任務自動駕駛方法相比,該方法降低了标簽成本。

另外,使用自動編碼器與CNN組成的端到端自動駕駛方法,即使訓練資料中幾乎沒有不相關的物體,也不會受到路邊不相關物體的影響。由此提煉出的模型和基線模型不容易受到陰影的影響。當陽光角度設定為45°,提出的模型仍然提供良好的性能,而基線模型無法保持車輛在車道上。

這種方法目前的一個限制是「簡單的場景」。為了擴大應用範圍,可以有不同的無關對象,如建築物和周圍的車輛。該模型中的CNN可以用強化學習算法代替來處理動态場景。也可以考慮有限範圍的道路測試。此外,為了處理如此複雜的圖像,決策網絡的架構也将被擴充。

Wang, T., Luo, Y., Liu, J., Chen, R., & Li, K. (2022). End-to-end self-driving approach independent of irrelevant roadside objects with auto-encoder. IEEE Transactions on Intelligent Transportation Systems, 23(1), 641-650. doi:http://dx.doi.org/10.1109/TITS.2020.3018473

主要作者資訊:

Yugong Luo(IEEE成員)——分别在1996年和1999年分别獲得重慶大學科技學士和科學碩士學位。2003年獲得清華大學博士學位。現任清華大學汽車與交通學院教授。他撰寫了70多篇期刊文章,擁有31項專利。主要研究方向為智能互聯電動汽車動力學與控制、汽車噪聲控制。

Tinghan Wang——在2016年獲得了清華大學的科技學士學位,目前正在攻讀博士學位。他的研究興趣包括基于深度神經網絡的端到端自動駕駛和深度強化學習。

Jinxin Liu——于2017年獲得合肥工業大學理工科學士學位。他目前在攻讀清華大學博士學位。主要研究方向為汽車意圖識别和行為規劃。

關于Auto Byte

Auto Byte 為機器之心推出的汽車技術垂直媒體,關注自動駕駛、新能源、晶片、軟體、汽車制造和智能交通等方向的前沿研究與技術應用,透過技術以洞察産品、公司和行業,幫助汽車領域專業從業者和相關使用者了解技術發展與産業趨勢。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀