關注并星标
從此不迷路
計算機視覺研究院
公衆号ID|ComputerVisionGzq
學習群|掃碼在首頁擷取加入方式
論文位址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9521517
計算機視覺研究院專欄
作者:Edison_G
任意方向的目标檢測是一項具有挑戰性的任務。
一、背景
目标檢測是計算機視覺中的一項基本任務,許多研究人員已經應用水準邊界框來定位圖像中的物體。 水準邊界框的使用可以使候選區域的表示更加簡潔直覺。 在許多基于深度學習的方法中,往往需要大量标記樣本來訓練目标檢測器模型,使用軸平行标記框可以大大提高标記效率,快速擷取大量标記樣本。 此外,水準邊界框涉及的參數較少,簡化了檢測模型的訓練過程。 是以,在大多數目标檢測方法中,使用水準邊界框來表示遙感圖像中目标的大緻範圍,如下圖所示。
然而,航拍圖像中的物體通常是任意方向的。是以,使用水準邊界框來檢測目标會引起幾個問題。首先,這種類型的物體檢測框通常包含許多背景區域。如上圖(a)所示,圖中大約60%的區域屬于背景區域。檢測框記憶體在過多的背景區域,不僅增加了分類任務的難度,而且會導緻目标範圍表示不準确的問題。其次,水準邊界框會導緻檢測框之間出現強烈重疊,如上圖(b)所示,降低檢測精度。最後,由于飛機、船舶、車輛等圖像中的物體包含運動方向資訊,如果使用水準邊界框,則無法獲得目标運動方向的資訊。
上述三個問題可以通過使用帶有角度資訊的旋轉檢測框有效解決,如上圖所示。首先,旋轉檢測可以精确定位圖像中的物體,并且邊界框幾乎不包含背景區域,進而減少背景對物體分類的影響。其次,旋轉檢測框之間幾乎沒有重疊,進而可以更清晰地識别框内包含的物體。最後,可以從旋轉檢測框粗略得到物體的運動方向資訊,進而判斷物體的運動軌迹。綜上所述,在遙感圖像目标檢測任務中使用帶有角度資訊的旋轉檢測框獲得了優越的性能。
二、前言
任意方向的目标檢測是一項具有挑戰性的任務。由于遙感圖像中的物體方向是任意的,使用水準邊界框會導緻檢測精度低。現有的基于回歸的旋轉檢測器會導緻邊界不連續的問題。在今天的分享中,研究者提出了一種基于角度分類的遙感圖像目标檢測方法,該方法使用帶有角度資訊的旋轉檢測邊界框來檢測對象。具體來說,研究者将神經架構搜尋架構與特征金字塔網絡 (NAS-FPN) 子產品結合到密集檢測器 (RetinaNet) 中,并在角度分類中使用二進制編碼方法。這種方法減少了背景影響,使得檢測框之間幾乎沒有重疊。根據檢測框的角度,我們可以推斷出目标的運動方向資訊,進一步确定目标的運動軌迹。研究者對一個可用于航空影像 (DOTA) 中的目标檢測的大型公共資料進行了消融實驗,以驗證該方法中每個子產品的有效性,并将該方法與其他幾種檢測方法進行比較。實驗結果證明了新提出方法的有效性。
三、新架構
新提出的旋轉檢測器架構如上圖所示。網絡基于RetinaNet架構。圖中标記為C2、C3、C4的特征圖是由深度卷積神經網絡提取的。該方法的總體步驟如下:首先利用特征提取網絡對遙感圖像中的特征進行提取,利用NAS-FPN對提取的特征進行融合,得到不同尺度的特征圖。然後,使用長邊定義方法來表示旋轉檢測框,并在框回歸任務中使用二進制編碼标記技術将角度回歸問題轉化為角度分類問題。下面較長的描述該方法中的一些重要結構。
NAS-FPN
在NAS-FPN中,最重要的結構是由特征圖節點集合、操作池和搜尋終止條件組成的合并單元結構。下圖簡要描述了特征圖的搜尋過程。
1)從特征圖節點集中随機選擇一個特征圖作為輸入之一。初始特征圖節點集包含五個尺度的特征圖,表示為 {C1,C2, C3, C4, C5}。
2)從特征圖節點集中随機選擇另一個特征圖作為另一個輸入。
3)選擇輸出特征圖的分辨率。
4)在操作池中選擇一個操作對(1)(2)中選擇的特征圖節點進行操作,産生與輸出特征圖分辨率相同的特征圖,并将該特征圖加入到特征圖節點集合中選擇。
5) 循環重複上述步驟。搜尋的終止條件是生成五個與初始特征圖分辨率相同的特征金字塔網絡,記為{P1, P2, P3, P4, P5}。
ROTATION DETECTION FRAME
典型的角度編碼方法有三種,包括兩種不同角度範圍的五參數方法和一種八參數方法。詳細情況如下:
角度範圍為90°的五參數法(OpenCV定義法):其示意圖如上圖所示。該定義法包含五個參數[x,y,w,h,θ]。其中,x和y為旋轉坐标系的中心坐标,θ為旋轉坐标系與x軸的銳角,逆時針方向指定為負角,是以角度範圍為[−90° , 0); 旋轉框的寬度w為旋轉框所在的邊角,旋轉框的高度h為另一邊。
180°角範圍的五參數法
八參數法
八參數法:該定義方法示意圖如上圖所示,該定義方法包含8個參數[a1,a2,b1,b2,c1,c2,d1,d2], 定義的左上角為起點,其餘點按逆時針順序排列。旋轉坐标系的表示不限于上述三種方法,旋轉坐标系其餘部分的表示可以通過上述三種方法的變換得到。
ANGLE CODING METHOD
90°範圍的五參數定義方法的問題
八參數四邊形定義方法的問題
角度編碼方法:
四、實驗及可視化
實驗環境
DOTA資料集上的性能比較
END
轉載請聯系本公衆号獲得授權
計算機視覺研究院學習群等你加入!
ABOUT
計算機視覺研究院
計算機視覺研究院主要涉及深度學習領域,主要緻力于目标檢測、目标跟蹤、圖像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的論文算法新架構,提供論文一鍵下載下傳,并分享實戰項目。研究院主要着重”技術研究“和“實踐落地”。研究院會針對不同領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手程式設計愛動腦思考的習慣!
🔗