
城市道路鳥瞰圖
1 介紹
損壞的道路對市民的出行有一定的影響。對市政府來說,檢測和确定要修複的道路是一項巨大挑戰。在美國,大多數州僅僅采用半自動方法進行道路損壞的檢測,而在世界其它地區這個過程則完全是人工檢測。由于必須保證路況資料是最新的,是以必須以較高的頻率檢測道路,這使得收集資料的過程既昂貴又費時。這就引出了一個問題:計算機視覺可以提供幫助嗎?
通過Lab1886一起提供資料,讓我們一起探索以下問題的答案:
(1)是否可以利用汽車儀表闆上智能手機拍攝的原始視訊片段來自動檢測道路是否損壞以及損壞程度?
(2)需要克服哪些技術挑戰?
本文将要介紹如何解決自動路損檢測任務,重點介紹遇到的一些問題。
2 目前的技術水準
圖1:現有論文中關于道路損壞檢測的示例圖像
在深入研究之前,我們對目前的技術水準進行了調查,找出其他人已經完成的工作。從文獻綜述中,我們發現路損檢測的方法大緻可以分為以下幾類
•3D分析:使用立體圖像或LIDAR點雲來檢測人行道中的異常情況。
•基于振動的分析:充分利用車載加速度計或陀螺儀。
•基于視覺的分析:從傳統技術(如邊緣檢測和光譜分割)到通過卷積神經網絡(CNN)進行的表征學習和分割。
方法:由于我們的主要任務本質上是視覺,并且我們無法通路LIDAR或振動資料,是以我們選擇專注于基于視覺的算法,特别是有監督的學習方法。
資料:之前的相關研究主要依賴于特寫圖像或與路面正交的圖像,但這些圖像與安裝在儀表闆上的錄影機傳輸的圖像明顯不同,是以不能使用這些資料訓練或校準。
3 我們的資料
資料集:安裝在汽車上的照相機收集的資料集。整個資料集包含約27000張德國道路的圖像,這些圖像是在晴天和幹燥條件下進行40次不同行駛拍攝到的。圖像中道路類型變化很大:有些是帶有建築物環境的多車道城市道路,有些是沒有道路标記或建築物的鄉村道路,路面也各不相同(混凝土、瀝青、鵝卵石)。圖像以大約每秒1張的方式拍攝。
圖2:來自Lab1886提供的資料集中的示例圖像。
4 資料标注的困難
因為資料集缺少标簽,是以我們需要一種方法解析每張圖像,針對每種類型的道路損壞對相關像素進行細分,并為像素标注相應損壞嚴重性類别的标簽。手動标注是一項艱巨的任務,是以我們使用幾種簡化标注的方式:
(1)縮小工作範圍(僅考慮油漆損壞):由于道路損壞的形式多種多樣(例如鳄魚皮裂縫、縱向裂縫、坑窪、斑塊、油漆),我們選擇縮小工作範圍,僅考慮油漆損壞。這不僅可以使資料标注更容易,還可以為以後識别其他類型道路損壞提供參考。
(2)嘗試使用預先訓練的分類模型篩選出沒有油漆損壞的圖像:我們從Maeda那裡得到兩個經過預先訓練的分類模型,這些分類器在10000幅以上的圖像上進行了訓練,使用邊界框來識别8種不同類型的道路損壞(包括磨損的油漆線)。這些模型對我們資料集的泛化效果很差。通過如下‘小提琴圖’可以看到無論是否存在油漆損壞,模型預測的分布幾乎相同。
圖3:Maeda等人模型的小提琴圖, MobileNet-SSD和Inception-SSD。這些圖表明,任何參數調整都不可以幫助模型區分是否存在油漆損壞。
(3)嘗試使用Mechanical Turk(MTurk)衆包注釋,這是Amazon提供的一項服務,參與者可以執行簡單的任務來換取金錢。我們的任務:通過從下拉菜單中選擇相應的嚴重性标簽來标注圖像中的油漆損壞。我們選擇以下簡單的嚴重等級:
•1-輕度損壞
•2-中等/中度損害
•3-嚴重損壞
圖4為 MTurk标注界面的示例。我們用200張圖像進行了一些試驗性實驗,每次修改指令用來糾正先前實驗中觀察到的不良結果,我們至少有三名從業人員在每個圖像上标注。
圖4:MTurk批注界面的示例。
即使進行三次實驗疊代,從業人員仍在注釋内容和注釋方法上存在分歧。我們使用交并比(IoU)量化了同一張圖檔中不同标注者之間的協定分數,根據協定分布,大多數标簽的注釋完全沒有重疊(如圖5),表明對于非專家而言,标注塗料損壞是一項困難任務。
圖5:通過MTurk标注的圖像的标注協定得分的分布。這顯示了标記任務的高度主觀性以及為什麼衆包困難。
結果:最終選擇自己标記資料。總共對1357張圖像進行了标注,其中每個嚴重程度至少包含300個執行個體。
5 模型
從根本上講,我們的任務解決兩個問題:
•損壞在哪裡?
•損壞有多糟?
解決問題的方法:
方法一、使用兩個不同的模型(分割和分類)分别解決每個問題(多階段)
1.分割模型:識别輸入圖像中存在油漆損壞的區域。嘗試了一些傳統的計算機視覺技術(門檻值化、分水嶺分割和簡單線性互動式聚類(SLIC)),來了解它們是否可以充分‘掩蓋’油漆,所有這些傳統方法都需要手動調整大量的超參數,并且無法在多個圖像上進行概括。(圖6傳統分割算法的結果)最終,我們使用流行的卷積編碼-解碼器網絡U-Net來執行單通道語義分割。模型的輸出是每個像素是否代表油漆損壞的預測機率。
圖6:在我們資料集中的單個圖像上運作三種傳統圖像分割算法的結果。
2.分類模型:從理論上講,對預測進行門檻值處理來生成可從輸入圖像中找出受損區域的掩碼(圖像分割),然後将其輸入分類器以預測損壞嚴重性。但在實踐中,使用真實(像素級)标注的圖檔作為分類模型的輸入,進而能夠找到分割模型表現不佳的可能性,這樣我們能夠分别評估分割模型和分類模型。我們使用的分類器是基于ResNet18架構的CNN。
圖7:左:原始圖像。中/右:傳遞到我們分類器模型的相應掩碼輸入。
3.評估:在占總圖像15%的測試集上評估每個模型。單類語義分割模型,(示例輸出如圖7),與傳統的計算機視覺方法相比,該模型學會了分割畫線(圖8)。然而像素級精度和召回率曲線(圖9)表明,該模型傾向于高估塗料損壞的存在。
圖8:左:原始圖像。中:地面真相面具。右:單通道細分模型的門檻值輸出。
圖9:單通道分割模型的像素級精度和召回率與機率門檻值的關系。随着門檻值的提高,該模型預測的損壞将減少。
損壞程度分類模型,能夠在一定程度上區分高度損害與低度損害,但很難從中等/中度損害中區分低度損害(見圖10)。這是表明标記的低度和中度損壞執行個體彼此太相似,分類模型對兩者都做出了相似的預測。
圖10:嚴重性分類網絡的混淆矩陣。每個類别的預測準确度如下:1–74.5%,2-–5.9%,3–54.2%,總體:45%。
方法二、多類别分割模型
調整U-Net以執行多類别分割,除了包含所有像素是否損壞的掩碼(mask),還為損壞嚴重性類别生成了一個掩碼(mask)。
圖11:多類别分割模型的示例輸出。從左到右:嚴重性級别1、2和3的輸入,目标和像素級别預測
多類分割模型的性能與多階段方法中的分類器非常相似,因為它能夠區分低度和高度油漆損壞,但對低度和中度損壞做出了類似預測。這在圖12中得到了最充分的傳達。
圖12:多類細分模型的并集在交集上的變化作為機率門檻值的函數。
多類分割模型的性能對預測門檻值非常敏感,即在将像素指定為“損壞”之前,該模型必須逐像素預測确定性。考慮到模型在中、低損壞等級之間的不确定性,它傾向于為這兩者配置設定非常低的機率。門檻值超過20%時,我們的多類别分割模型隻能預測出嚴重程度較高的損壞;較低的門檻值導緻對損壞區域的過度預測。這樣區分嚴重性的困難與識别損壞位置的困難混為一談。
從模組化的角度來看,采用多階段方法可能更有利于闡明任務在哪些方面最具挑戰性。
6 重點
6.1 概括
理想情況:模型對于從不同角度、不同光照條件或天氣的新區域擷取的資料能保持較高的準确性。
資料:道路損壞的資料不足,并且 Maeda等人的資料無法完全歸納到我們的資料集中(盡管日本的道路和德國的道路僅存在細微的系統差異—德國道路通常較寬,顔色較淺),任何現有模型都需要進行大量的重新訓練和調整才能處理新資料,但是資料收集和注釋艱難,如果沒有足夠的資源來擷取資料或雇用經過訓練的專業知識人員,訓練可推廣模型對于本地市政來說是一項巨大挑戰。
神經網絡表征學習:使用複雜的神經網絡進行表征學習是必要的,因為簡單的計算機視覺方法無法解決問題。
6.2 噪聲注釋
我們的标注過程看似簡單:識别損壞的油漆并将其嚴重性得分指定為1、2或3。但是檢視MTurk結果,就很清楚這并不是那麼簡單。即使為MTurk提供了非常詳細的說明并提供了充分的示例,勞工之間也幾乎沒有一緻意見。出現了一些意外的問題:
1.是否突出顯示整個油漆線,還是僅突出虛線部分?
2.這裡應該是油漆嗎?
3.應該标記多遠?
4.應該注釋損壞周圍多少“緩沖”區域為模組化提供背景?
即使在讨論了這些要點并自己标記了資料之後,依然有幾個互相沖突的例子,這些例子構成了中、低程度損害的執行個體。是以我們建議研究員将嚴重度等級分解為能夠滿足他們要求的最少幾類,我們懷疑這是我們的模型學會區分極端損壞而無法區分中、低損壞的關鍵原因。為減輕此錯誤需要更一緻的标簽、更多的資料或更少的嚴重性等級。
6.3 模型評估
分割模型的定量評估非常細緻。首先,與真實掩碼的比較都會受到兩個噪聲源的影響:
1.注釋不一緻引起的意外噪聲(對我們來說是一個實際問題)。
2.在注釋期間,突出顯示的場景上下文數量。
評估名額:
1.IoU評估名額:假設我們有一個僅分割油漆線的理想模型,注釋在突出顯示場景上下文中越寬松,則IoU得分就越低。
2.以像素或圖像為機關計算精度和召回率:對每個像素進行預測或對每個圖像進行預測,為了将像素級預測映射到圖像,将圖像中任何正像素預測的存在視為該圖像的正預測。精度和召回率的任何計算都必須通過最終使用者希望模型的保守程度來限定。
請注意,我們用來評估模型的名額并不構成詳盡清單。我們的建議是使用一套以像素和圖像為機關的名額,以了解模型在各種特殊水準下的表現。
7 結束語
深度學習模型在精選資料集上表現非常出色,但在非結構化資料上仍有很大改進空間,應用計算機視覺模型執行自動道路損壞檢測時,必須考慮的一些重要因素,包括:
•如何正确地對不同類型的損害進行分類。
•如何確定注釋一緻。
•具有數百萬個參數的深度學習模型需要多少個注釋才能有效學習:損壞存在的地方,以及損壞的程度。
•如何有效評估分割模型,并考慮注釋的制作方式以及最終使用者的身份。
我們的貢獻是概述了這些挑戰,并證明即使在資料有限和标簽嘈雜的情況下,我們的模型也能夠學會分割油漆線,分類嚴重的極端示例。模型的瓶頸在于資料。
參考資料
[1] R. Fan,M. Liu,基于無監督視差圖分割的道路損壞檢測https://arxiv.org/pdf/1910.04988.pdf (2019年),IEEE Transactions on Intelligent Transportation Systems
[2] S. Chen等人,“ 3D LiDAR掃描進行橋梁損傷評估” https://ascelibrary.org/doi/10.1061/9780784412640.052 (2012年),《法證工程》 2012年:通往更安全明天的門戶
[3] S. Sattar等人,《使用智能手機傳感器進行路面監測:回顧》https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6263868/ (2018年),傳感器(瑞士巴塞爾)
[4] E. Buza等人,“ 具有圖像處理和光譜聚類的坑洞檢測”
https://pdfs.semanticscholar.org/78d5/c9c0c9bcdb939e028bc4d6f808300253dca1.pdf (2013年),第二屆國際資訊技術和計算機網絡會議論文集
[5] J. Singh,S。Shekhar,《使用Mask R-CNN的智能手機捕獲圖像中的道路損壞檢測和分類》https://arxiv.org/pdf/1811.04535.pdf%60 (2018),arXiv預印本arXiv:1811.04535
[6] H. Maeda等人,《使用深度神經網絡的道路損壞檢測與通過智能手機捕獲的圖像》https://arxiv.org/pdf/1801.09454.pdf (2018),計算機。輔助文明 基礎設施。。
[7] O. Ronneberger等人,U-net:用于生物醫學圖像分割的卷積網絡https://arxiv.org/pdf/1505.04597.pdf(2015年),醫學圖像計算和計算機輔助幹預國際會議
End