天天看點

未來自動駕駛必須解決哪些感覺問題

作者 |Jessie

出品 |焉知

對于研究下一代智能汽車的系統設計、軟體開發而言,需要解決包含架構設計、功能開發、車輛控制等方面的諸多問題,而以上問題的根源都在于環境感覺的能力研究。除開感覺本身的硬體性能外,其軟體中的算法模型、訓練神經網絡、感覺資料處理容量等都是需要重點解決的問題。

目前,感覺能力的開發主要包含如下過程:相機輸入-->圖像的預處理-->神經網絡-->建構分支處理結構-->後處理-->輸出結果。其中建構分支結構包括紅綠燈識别、車道線識别、2D物體識别轉3D等;最終輸出的結果包括輸出物體類型、距離、速度代表被檢測物的朝向等;

未來自動駕駛必須解決哪些感覺問題

目前,所有感覺問題的關鍵仍然是神經網絡算法,對于域控制器處理過程能力來說,其需要重點考慮計算精度、實時性、算力使用率等,這是確定物體不被漏檢或誤檢的前提。其中由于感覺硬體裝置中輸入的超大分辨率圖像問題,涉及單目或多目攝像頭對感覺輸入的處理問題都是需要重點關注的。此類感覺任務的難點或者優化方向核心主要在于如下幾個方向:

 如何處理高分辨的輸入

 如何提高密集小目标檢測

 如何解決類多目标重疊問題

 如何利用少量的訓練資料解決目标多樣性問題

 如何利用單目攝像頭進行目标位置的精确估計

感覺中的相機資料标定

單目測距是通過光學幾何模型(即小孔成像模型)建立測試對象世界坐标與圖像像素坐标間的幾何關系,結合攝像頭内、外參的标定結果,便可以得到與前方車輛或障礙物間的距離。無論是單目攝像頭還是雙目攝像頭,在進行資料檢測前都要進行相機内外參數标定,标定的過程是為了通過如下公式計算世界坐标到圖像坐标的轉化。

未來自動駕駛必須解決哪些感覺問題

相機内參标定用于做圖像的畸變校正,外參标定用于将多個攝像頭進行坐标系歸一化,将各自的坐标原點移動到車輛後軸中心處。fx、fy表示相機焦距,x、y表示目标的圖像坐标系位置。從上述公式不難看出,相機參數的标定結果嚴重影響對世界坐标系圖像位置的檢測。

在實際相機搭載到車輛過程中,會有兩種标定方式,其一是産線标定,其二是實時标定。産線标定是利用标定闆中的格點資訊進行攝像頭的位置标定。一般情況,可采用張正友經典棋盤格模型進行角點位置标定,也可以采用圓點闆圖進行線上标定。另外考慮到車輛運作一段時間或者在颠簸的過程中攝像頭位置的偏移,攝像頭也會同時設定線上實時标定模型,通過實際駕駛過程中,利用車道線消失點或車道線等檢測結果資訊實時更新俯仰角的變化,進而優化标定參數。

超大分辨率圖像目标的有效檢測

為了實作對大尺寸圖像目标檢測,我們常用的方法是設定周遊視窗,對該超大分辨率的圖像使用該平滑視窗進行周遊後裁剪成多個子圖,然後分别對每一個子圖進行目标提取,最後将所有子圖的目标提取結果進行拼接後進行平滑濾波。

以目前算力的晶片架構設計的域控制器對超大分辨率圖像的處理邏輯是采用一定的手段進行圖像resize。或者是基于一定的準則(如NXN的子圖網絡)進行圖像下采樣,降低圖像分辨率。然而這兩種方式都有可能造成目标漏檢。

未來自動駕駛必須解決哪些感覺問題

這裡需要解決兩個比較重要的問題:

1) 如何設定周遊視窗大小;

一般采用固定尺寸大小的周遊子圖視窗中,可能無法剛好将總圖周遊後形成整數個子圖,這時在很多的視窗邊緣就會通過圖像泛化或膨脹來擴充。我們在資料集上訓練網絡的時候,通常需要把資料集變換到同一尺寸,但是通常的resize函數會破環圖像的縱橫比aspect ratio,而aspect ratio對于檢測的效果非常重要, 為了更好的保留圖像特征,需要對最邊緣的子圖采用letterbox的方式縮放到和周遊子視窗相同的大小。letterbox就是在保持縱橫比的前提下對圖像做resize,先resize然後按需要在周圍pad上0像素。

未來自動駕駛必須解決哪些感覺問題

2) 假設切割目标位于大圖邊緣,将如何確定其不被截斷;

需要說明的是,如果一個目标剛好處于視窗邊緣,本身目标所占像素就少又被截斷,這時候也就容易在滑窗檢測過程中被切分成開,最終會造成其更加難以檢測。是以在滑窗裁剪的時候必須有一定的重疊區域,原因是如果一個目标剛好處于視窗邊緣被切分成2塊,其重複部分會導緻多個檢測框圖像都會重複出現同一個目标的問題,解決的辦法就是通過将所有子圖的檢測結果合并起來采用非極大值抑制方式進行過濾。

在目标檢測過程中,可利用自動駕駛檢測圖像都具有旋轉不變性的特征,通過資料增廣的方式旋轉圖檔生成更多形狀的物體進而緩解問題。

同時,為了盡可能多的保留原始圖像資訊,一般需要将原始圖像進行擴大兩倍采樣,即升采樣,進而生成一組采樣圖。而為了保證後續圖像處理過程的針對性、實時性,則需要在高斯模糊後進行降采樣,即很多時候為了提升運算效率,往往采用大倍數的下采樣率進行下采樣(如32倍下采樣率)在降采樣過程中需要注意的是,避免過度降采樣,因為過度采樣可能導緻大分辨率下的小目标被直接過濾掉,好的方法是減少采樣倍數,同時增加采樣網絡層數,這樣可以有效增加特征提取能力。

未來自動駕駛必須解決哪些感覺問題

此外,在圖像中的目标檢測任務中,都可能存在前後背景的不平衡的情況,而不同類别之間資料量可能存在較大不同,首先可以采取資料上采樣和下采樣的方式來均衡不同資料量大小;其次是采用資料增廣的手段來增加前景目标在一張圖像中的占比;最後是通過設計代價函數調整不同目标的檢測權重進而控制其檢測優化等級。

3) 如何確定小目标物體不會漏檢

大分辨率圖像中,小目标物體檢測一直是個難點。一般處理方式是采用圖像金字塔進行多尺度訓練,一般的,特征金字塔包含了從淺層到深層的不同資訊,其中淺層涉及更多的細節特征,深層網絡涉及更多的語義特征資訊。通過對原始大圖進行一定程度的下采樣後生成多個不同低分辨率的圖像金字塔,再對每層金字塔的淺層至深層采用不同分辨率的子圖分類器滑動可以有效的檢測到目标。

單目視覺深度資訊估計的優化方案

目前輔助駕駛或自動駕駛系統通常采用單目視覺來實作目标深度估計。單目測距方式主要是通過幀間圖像比對來實作目辨別别,然後通過目标在圖像中的大小來估計目标距離。單目測距需要将多個3D場景投影到2D場景中,而從單幅圖像中提取幾何位置坐标不僅需要考慮局部線索,還需要考慮整個視訊幀的全局上下文。這一過程中需要使用到卷積神經網絡思想,其核心在于感受野内的局部連接配接、卷積狀态下的權值共享、池化層空間或時間上的下采樣。卷積神經網絡在資訊檢測中最大的優勢在于具有強大的特征提取能力使其對局部細節的檢測能力較強,相反的其對全局目标資訊的檢測能力也就相對較弱。

單目視覺估計僅僅是通過光學幾何模型(即小孔成像模型)建立測試對象世界坐标與圖像像素坐标間的幾何關系,結合攝像頭内、外參的标定結果,計算得到與前方車輛或障礙物間的距離。單目視覺估計的優勢是成本較低,系統結構簡單,且對計算量的需求不高。缺點是識别過程中需要與龐大的資料樣本進行比對,不僅測距延時性大,準确率也不高。這點上相對于雙目攝像頭直接利用視差圖進行測距的原理存在很大的不足。

而為了彌補這種全局檢測能力缺陷,2017年提出采用了Transformer的檢測機制,其核心思想是注意力機制,其自帶的長距檢測特性確定了由淺到深層的檢測範圍,更好的提升全局模組化能力。是以将CNN及Transformer的圖像檢測追蹤方式進行結合,可以更好的提升車載目标跟蹤能力。基本的框圖架構如下圖:

如上圖,首先對輸入的三維圖像資訊進行編碼與解碼,解碼後的特征代表高分辨率和局部像素級特征。解碼後的圖像使用全局注意力來計算每個輸入圖像的單元寬度向量。該向量輸出包括兩部分:其一是定義如何為深度圖像劃分深度區間;其二是包含了對像素級深度計算有用的資訊。

對于來自Transformer的輸出通過作一組二維卷積核,并與解碼特征圖進行卷積以獲得範圍注意圖 R。其次,通過對輸入的一定大小(h,w)的單元向量進行卷積(卷積核pxp,卷積步長為s)計算,卷積輸出結果為h/p×w/p×s的張量。最後歸一化後可生成機關寬度向量用于對圖像進行間距寬度b計算。

最終深度圖資訊=全局資訊R+局部資訊b。

如上單目深度學習特征提取方法具有較好的特征提取能力,即使采用了最好的特征提取算子,也不能cover住所有的場景動态物體特征,如轎車容易誤檢為卡車。在工程開發中,可以依據現實場景增加一些幾何限制條件提高檢測率,降低誤檢率,(如尺寸資訊,空間位置資訊,運動連貫性資訊等),這樣可以訓練一個3D檢測模型再配合後端多目标追蹤優化以及基于單目視覺幾何的測距方法完成功能檢測子產品。

道路場景資訊檢測的精确性問題

1、可行駛區域檢測分析改進方案

典型的視覺檢測問題可歸結為幾個大類,前述章節提到了小目标檢測問題,對于下一代自動駕駛系統來說必須要解決的問題還包括可行駛區域檢測,這種檢測方式包括對車輛、路沿、無障礙物的區域進行劃分,最後輸出自車可以通行的安全區域。

可行駛區域探測(光線充足VS夜晚)

可行駛區域的檢測實際上是一種深度學習中的語義分割的問題。深度學習中常用到的空洞卷積、池化金字塔、路徑聚合、環境編碼等都可以在其中得到很好地應用。但是可行駛區域的檢測仍然存在較多的問題:

其一,也是最重要的就是在檢測的靜态邊界或動态障礙物邊界仍舊存在一些不确定性,這種不确定性導緻無法對車輛的行駛狀态進行有效的軌迹規劃和狀态決策。為了解決這類問題,可以通過配合路沿、車道線、目标框的結果來修正語義的邊緣資訊,并從矢量包絡或栅格圖中定義可行駛區域。

其二,就是可行駛區域的檢測容易出現資料不平衡,且這種不平衡問題往往出在訓練階段,這一過程需要定義合理的損失函數和資料上采樣率來進行優化。

其三,可行駛區域探測可能由于光照、粉塵、大雪大霧等因素,需要充分結合視覺與雷達進行障礙物探測,以確定其檢測穩定性。

2、車道線檢測問題改進方案

在自動駕駛視覺感覺中,車道線作為橫向對中控制基礎,其檢測過程是一個最基本的需求項。已有衆多的車道線檢測算法被人們所開發出來,而最重要的檢測難點包括:

其一,車道線具有細長的形态特征,這種形态要求追蹤具備連續性,甚至包含一定的圖像拼接技術。相應的檢測手段需要參照不同的層次劃分機制來擷取全局空間結構關系,對于細節處的定位精度也可采用角點檢測的方式進行。

其二,車道線的形态容易受到外界幹擾(比如被遮擋,磨損,以及道路變化時本身的不連續性),存在較多不确定性。解決辦法是采用較強推測能力的算法針對邊緣情況進行推測。

其三,在啟動駕駛輔助功能(如自動換道、車道保持期間)期間,自車會在車輪壓線過程中發生車道線左/右切換的情況。解決辦法除了設定濾波延遲外,也可以通過提前給車道線指派固定序号的方法進行優化。

3、交通标志、錐桶識别問題

自動駕駛系統中,諸如交通标志、錐桶一類的小目辨別别是一類重要且亟待解決的問題。通常,處理這類問題還是采用的基礎神經網絡進行特征提取和泛化來cover,但是需要大量的先驗資料庫作為支撐。而交通辨別檢測具有一下難點:首先,由于交通标志、錐桶一類都是小目标,其檢測過程需要進行更多的特征提取,甚至在神經網絡中産生更多的金字塔層;其二,不同的交通标志(如有圓形紅綠燈、箭頭形紅綠燈、倒計時紅綠燈;雪糕筒、三角錐桶、梯形錐桶等)具有不同的形态,其多樣性問題就是一個不得不解決的問題;其三,場景具有較高的複雜度,比如路口處信号燈的安裝位置,安裝方向;施工區域的錐桶起止點,終止點等。

總結

智能駕駛中的視覺感覺問題一直是業界重點關注的問題,他不僅影響着對于後續軌迹規劃、決策控制的影響,也是整個輔助駕駛系統能否為更進一步往自動駕駛上更新的關鍵。我們已經能夠關注到相關場景識别檢測能力對整個視覺感覺的需求,後續我們需要更加關注如何解決視覺感覺中的場景局限性問題。本文從視覺感覺任務、能力、局限性及改善方案幾個角度出發充分說明了各個不同的解決方案路徑,在工程應用中具備較好的實作價值。

未來自動駕駛必須解決哪些感覺問題

繼續閱讀