天天看點

基于DETR的高分辨率遙感影像滑坡體識别與檢測

作者:測繪學報
基于DETR的高分辨率遙感影像滑坡體識别與檢測

本文内容來源于《測繪通報》2023年第5期,審圖号:GS京(2023)0845号

基于DETR的高分辨率遙感影像滑坡體識别與檢測

杜宇峰1, 黃亮1,2, 趙子龍3, 李國柱1,3

1. 昆明理工大學國土資源工程學院, 雲南 昆明 650093;2. 雲南省高校高原山區空間資訊測繪技術應用工程研究中心, 雲南 昆明 650093;3. 雲南海钜地理資訊技術有限公司, 雲南 昆明 650093

基金項目:雲南省基礎研究計劃(202201AT070164);國家自然科學基金(41961039);雲南省基礎研究計劃(202101AT070102)

關鍵詞:滑坡, 目标檢測, 卷積神經網絡, DETR, 注意力機制

基于DETR的高分辨率遙感影像滑坡體識别與檢測
基于DETR的高分辨率遙感影像滑坡體識别與檢測

引文格式:杜宇峰, 黃亮, 趙子龍, 等. 基于DETR的高分辨率遙感影像滑坡體識别與檢測. 測繪通報,2023(5):16-20. DOI: 10.13474/j.cnki.11-2246.2023.0129.摘要

摘要 :滑坡災害因其極大的破壞性而引起高度重視,如何快速、高精度地自動檢測滑坡體成為主要研究問題。針對滑坡體檢測資料不足、精度低、檢測滑坡體不完全等問題,本文結合卷積神經網絡(CNN)和Transformer的優點,以Transformer為主體,采用DETR網絡實作滑坡體的自動檢測。首先,對于資料集資料不足的問題,采用離線資料增強的方式實作滑坡體資料增廣;然後,采用編碼器-解碼器結構的DETR網絡結構對增廣資料集進行多尺度訓練和預測;最後,對試驗結果進行定量評價。試驗結果表明,采用DETR網絡對滑坡體檢測的平均準确率(AP)達0.997,可準确識别和檢測滑坡體。此外,試驗結果還驗證了資料增強可有效提升DETR網絡對滑坡體的檢測精度。

正文滑坡災害因其極強的破壞力、突發性、範圍廣等重要特征,嚴重危害國家人民的财産和生命安全。是以,快速準确地識别滑坡體對滑坡治理和避免災害發生具有重要作用。目前,國内外研究中常見的滑坡體識别方法根據自動化程度的不同主要分為以下3種:①目視解譯方法。該方法雖然在實際項目中應用廣泛,但主觀性強,且存在識别速度慢、耗時耗力等問題。②傳統的遙感圖像處理方法。主要包括面向對象分析方法[1]、統計學習方法[2]及機器學習方法。這兩種方法相較于人工目視解譯自動化程度有較大的提高,但基于圖像特征建構規則的方法自動化程度仍較低,檢測速度較慢。③基于深度學習的滑坡識别方法。深度學習方法多采用CNN對滑坡體特征進行自動提取和訓練,進而提高滑坡的識别精度,且能夠對滑坡體快速檢測,極大地減小了主觀因素影響,提升了滑坡識别的自動化程度[3-5]。作為一種以資料驅動的識别和檢測方法,其資料集的品質與數量在訓練識别中起關鍵性的作用。随着資料的爆炸式增長和計算機算力的發展,深度學習由于自動化和快速檢測的優點,可為滑坡體識别和檢測提供技術支撐。目前,基于深度學習的滑坡識别和檢測多采用CNN結構進行訓練,由于CNN平移不變性和歸納偏置的優點,在滑坡體識别和檢測中應用廣泛,但其缺點也很明顯。CNN的感受野受限,進一步增大感受野需要不斷堆疊網絡層數。網絡結構的加深,會丢失有價值的資訊,容易忽略局部資訊與全局資訊的關聯,進而導緻大範圍的滑坡無法完全識别,且容易受“同譜異物”的幹擾,出現錯檢、漏檢的情況。本文結合近年來快速發展的Transfomer網絡結構和CNN結構,形成DETR[6]網絡結構,建構多任務自動識别和檢測模型,實作對滑坡體自動識别和檢測。該結構融合Transformer并行計算和注重全局資訊的優點與CNN的局部資訊的優點,可更好地提取滑坡體特征,提高滑坡體識别和檢測精度,并對資料集進行資料增強,解決Transformer依賴大量資料訓練的問題。1 研究資料概況 本文采用武漢大學公開的貴州省畢節市滑坡資料集(包括770個滑坡樣本),金沙江流域滑坡資料集(包括500個滑坡樣本),以及對其中一些疑似裸地、礦場的資料進行删減所建構的新資料集。資料集采用多尺度滑坡樣本,其中樣本大小不一,由高分2号遙感影像裁切而成,為R、G、B 3個波段,地面分辨率為0.8 m。畢節市滑坡資料集的研究區域覆寫整個畢節市。該區地處青藏高原向東部丘陵過渡的坡度帶,地質不穩定,坡度陡峭,是大陸滑坡高發最為嚴重的地區之一。金沙江滑坡資料集的研究區域主要分布于西藏、雲南、四川等省(自治區)的金沙江及附近流域,還有部分滑坡分布于甘肅和貴州等地,多位于大江大河附近。2 方法原理首先,通過離線資料增強的方法得到增廣後的滑坡體資料集。在資料訓練階段,采用ResNet-50的CNN主幹特征提取網絡對輸入圖檔進行特征提取,再把特征圖裁切成若幹大小相同的正方形圖像塊并對其進行位置編碼,輸入Transformer的編解碼器結構中進行訓練;然後,采用匈牙利比對算法作為損失函數進行預測;最後,通過與現有的CNN網絡結構進行對比分析,驗證基于Transformer的DETR方法在滑坡識别方面的優越性。其主要流程如圖 1所示。

基于DETR的高分辨率遙感影像滑坡體識别與檢測

圖 1 技術流程2.1 資料增強以Labelme軟體為标注工具,标注滑坡建構資料集,同時,由于深度學習方法依賴于大資料集,為了增強滑坡體識别的穩定性和提高滑坡識别精度,本文采用離線增強的方法直接對資料集進行增廣。采用鏡像、旋轉、翻轉、改變明亮度等操作使資料集增廣20倍,使滑坡樣本達6450個。滑坡資料集以6∶2∶2建立訓練集、驗證集和測試集。其中,訓練集滑坡樣本數量為3870個,驗證集樣本數量為1290個,測試集樣本數量為1290個[7]。部分的資料集圖檔如圖 2所示。

基于DETR的高分辨率遙感影像滑坡體識别與檢測

圖 2 資料集增廣後的部分滑坡2.2 ResNet-50CNN通過卷積層不斷堆疊擷取更深層次的特征,但網絡層數的增加會造成随機梯度消失的問題,而ResNet-50[8]可很好地解決這個問題。其網絡層數的增加使表達的特征更好,檢測的性能更強。通過殘差1×1的卷積層達到降低參數量及減少計算量的目的[9]。其中,關鍵在于殘差網絡單元的結構。在殘差網絡單元中包含了跨層跳躍連接配接,可将輸入跨層傳遞,使經過卷積操作的輸出結果與跨層跳躍連接配接的同等映射相加。ResNet-50的網絡結構可被分成7個部分,網絡結構如圖 3所示。首先輸入的圖像資料經過第一部分的卷積層,即正則化、激活函數、最大池化層;其次輸入圖中包含了殘差網絡單元編号1—4框選的4個部分,其殘差單元用于改變殘差塊的次元和下采樣;然後ResNet-50網絡的輸入為224×224×3,經過前5部分的卷積計算,輸出為7×7×2048;最後池化層會将其轉化成一個特征向量,最終分類器會對這個特征向量進行計算并輸出類别機率。

基于DETR的高分辨率遙感影像滑坡體識别與檢測

圖 3 ResNet-50網絡結構2.3 Transformer網絡結構Transformer最先應用于自然語言處理領域,主要由編碼器和解碼器兩部分組成。其中,Self-attention是Transformer的核心[10]。一個完整的Transformer網絡結構由多個編解碼器組成,其中編碼器主要由Self-attention和前饋神經網絡構成,解碼器由多頭自注意力機制器和編碼器-解碼器注意機制構成。在編碼器結構中,輸入後先經過自注意力機制層得到一個權重的特征向量Z,公式為

基于DETR的高分辨率遙感影像滑坡體識别與檢測

(1) 式中,Z為Attention(Q,K,V)。得到Z後,輸入編碼器的前饋神經網絡子產品中,前饋神經網絡主要由激活函數ReLU層和線性激活函數組成,公式為

基于DETR的高分辨率遙感影像滑坡體識别與檢測

(2) 式中,W1、W2為激活函數的權重參數;b1、b2為線性激活函數的偏置參數。在解碼器結構中,通過解碼器并行解碼輸入N個對象,加入基于sin函數的位置編碼并輸入注意力層中,由解碼器轉換為結果輸出。2.4 基于Transformer的DETR滑坡識别方法通過CNN和Transformer的優點互補,達到準确識别滑坡的目的。DETR的結構如圖 4所示。主要包括4個子產品:CNN的Backbone、Positional Encoding、編解碼器及一個前向網絡(FFN)。首先以ResNet-50為主幹特征提取網絡生成滑坡特征圖,再通過Positional Encoding對圖像位置進行編碼,并把特征圖分成若幹個正方形圖像塊;然後輸入到Transformer的編解碼器結構中;最後通過前饋神經網絡進行每個矩形框的位置資訊(bbox)和類别的預測。

基于DETR的高分辨率遙感影像滑坡體識别與檢測

圖 4 DETR網絡結構2.5 精度評價采用精确率(P)、召回率(R)、平均精确度(AP)對本文滑坡目标檢測結果進行精度評價。精确率:正确識别的滑坡數量與滑坡總量的比值。計算公式為

基于DETR的高分辨率遙感影像滑坡體識别與檢測

(3) 式中,TP為正确預測的正樣本數;FP為錯誤預測的正樣本數。召回率:正确識别的滑坡數量與滑坡真值總量的比值。衡量分類器對滑坡資料集的漏檢情況。計算公式為

基于DETR的高分辨率遙感影像滑坡體識别與檢測

(4) 式中,NP為錯誤預測為負樣本的個數。平均精确度:同一類目标在不同的召回率下精确率的平均值。計算公式為

基于DETR的高分辨率遙感影像滑坡體識别與檢測

(5) 3 試驗與分析采用DETR方法對滑坡體進行識别,并與近年來被廣泛應用的CNN目标檢測算法進行比較。此外,對資料集資料增強前後進行對比,驗證資料增強對滑坡精度提升的有效性。試驗硬體裝置采用英特爾Core(TM) i7-10870H的處理器,具有16 GB記憶體,圖形處理器GPU為NVIDIA GeForce GTX3060顯示卡,具有6 GB的顯存。在試驗訓練過程中,目标檢測網絡結構選擇PyTorch架構下的DETR,主幹特征提取網絡采用ResNet-50,超參數如下:學習率為0.000 01,批尺寸大小為1,epochs為100次,位置編碼采用基于sin函數的絕對位置編碼,編解碼器層數為6層,Transformer内部注意力的注意力頭部數量為8個。對CenterNet[11]、Faster-rcnn[12]、Efficientdet[13]、YOLOv3[14]、YOLOv4[15]、YOLOv5及DETR在滑坡訓練資料集中的評估具體情況見表 1。其中,DETR在各方面取得最優效果。表 1 多種方法資料增強後對比精度

基于DETR的高分辨率遙感影像滑坡體識别與檢測

DETR分别将資料增強前後的資料對比,具體結果見表 2。可知,資料增強對滑坡識别各方面名額具有顯著的提升作用。表 2 DETR資料增強前後精度對比

基于DETR的高分辨率遙感影像滑坡體識别與檢測

測試集共有1290個樣本,各方法的具體檢測結果見表 3。可知,本文采用的DETR方法不存在漏檢和錯檢的情況,但在複雜環境中存在重複檢測的問題。其中,CenterNet、Efficientdet、YOLOv4均存在漏檢的情況,而YOLOv5也存在少量漏檢和滑坡重複檢測的情況。表 3 測試集檢測結果

基于DETR的高分辨率遙感影像滑坡體識别與檢測

選取測試樣本中部分具有代表性的滑坡進行分析,識别結果見表 4。表 4 測試集示例檢測結果

基于DETR的高分辨率遙感影像滑坡體識别與檢測

由表 4可知,不同方法在不同環境下對滑坡的識别效果,執行個體1為高速路邊的滑坡識别,各方法對執行個體1均能識别,但Efficientdet存在漏檢的情況,其中DETR的檢測效果最好,基本與标簽一緻。執行個體2為建築物旁的滑坡檢測,其中Faster-CNN識别存在重複檢測的問題,且重複檢測框識别不完全。執行個體3為公路兩側滑坡檢測,以上方法中大多存在漏檢和檢測不完全檢測精度低等問題,DETR識别滑坡效果最好。執行個體4為複雜環境下的多滑坡檢測,大多存在漏檢,檢測不完全的情況,其中CenterNet、Efficientdet方法隻能識别部分滑坡,不足以檢查多個滑坡。執行個體5為大型滑坡,可以看出以上方法均能對滑坡進行識别,其中Faster-CNN對大型滑坡識别的效果較差,檢測框不能完全識别滑坡,存在重複檢測的情況。通過以上對比分析,基于Transformer的DETR方法在滑坡識别精度和預測框的準确性方面均能取得最優的檢測效果。4 結語本文對滑坡資料集進行資料增強,解決了滑坡資料不足的問題,采用基于Transformer的DETR網絡結構建構滑坡體自動識别模型。試驗結果表明,DETR網絡能有效地對滑坡進行識别,具有檢測精度高、識别滑坡完全、标記準确的優點,AP達0.997;同時驗證了資料增強對于模型精度提高的有效性。由試驗結果分析來看,本文試驗在方法和資料方面依然存在一些問題。在資料集方面,“同譜異物”的問題仍會對滑坡檢測造成一定的幹擾,易受裸地、礦場、雲層等影響。在網絡結構方面,雖能準确識别滑坡,但訓練時間成本過高,計算資料量較大。是以在未來工作中,需進一步探索更加輕量化的網絡模型,以實作滑坡的快速準确識别;同時,在小比例尺大型地圖中,進一步預測并驗證其模型的泛化性。

作者簡介作者簡介:杜宇峰(1996-),男,碩士,主要研究方向為遙感影像目标檢測。E-mail:[email protected]通信作者:黃亮。E-mail:[email protected]

初審:紀銀曉複審:宋啟凡

終審:金 君

資訊

繼續閱讀