天天看點

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

計算機視覺研究院專欄

作者:Edison_G

​特征金字塔在需要多尺度特征的圖像了解任務中已被證明是強大的。多尺度特征學習的最新方法側重于使用具有固定拓撲結構的神經網絡跨空間和尺度執行特征互動。

公衆号ID|ComputerVisionGzq

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

開源代碼:​​https://arxiv.org/pdf/2108.00580.pdf​​

1

前言&背景

特征金字塔在需要多尺度特征的圖像了解任務中已被證明是強大的。多尺度特征學習的最新方法側重于使用具有固定拓撲結構的神經網絡跨空間和尺度執行特征互動。

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

在今天分享中,研究者提出了圖特征金字塔網絡,該網絡能夠使其拓撲結構适應不同的内在圖像結構,并支援跨所有尺度的同步特征互動。

2

特征金字塔

特征金字塔網絡相當于先進行傳統的bottom-up自上而下的特征卷積,然後FPN試圖融合左側特征圖的相鄰的特征圖。左側模型叫bottom-up,右側模型叫top-down,橫向的箭頭叫橫向連接配接lateral connections。這麼做的目的是因為高層的特征語義多,低層的特征語義少但位置資訊多。

左側模型特征圖大小相差1倍,但像AlexNet一樣,其實是每在同樣大小的feature上卷積幾次才進行一次池化操作,我們把在同樣大小feature上的卷積稱之為一個stage。上圖畫的圖是每個stage的最後一個卷積層,因為每個stage的最後一層feature語義資訊最多。

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

具體做法是兩個特征層的較高層特征2倍上采樣(上采樣方法很多,上采樣幾乎都是采用内插值方法,即在原有圖像像素的基礎上在像素點之間采用合适的插值算法插入新的元素,總之是把feature大小擴大了一倍)。較低層特征通過1×1卷積改變一下低層特征的通道數,然後簡單地把将上采樣和1×1卷積後的結果對應元素相加。為什麼橫向連接配接要使用1×1卷積呢,為什麼不能原地不動地拿過來呢?原來在于作者想用1×1改變通道數,以達到各個level處理結果的channel都為256-d,便于後面對加起來的特征進行分類。

3

新架構分析

首先為每個輸入圖像定義一個特定于圖像的超像素層次結構,以表示其固有的圖像結構。圖特征金字塔網絡從這個超像素層次結構繼承了它的結構。上下文層和hierarchical層旨在實作相同尺度内和不同尺度之間的特征互動。為了使這些層更強大,研究者通過卷積神經網絡的全局通道注意力,為圖神經網絡引入了兩種類型的局部通道注意力。提出的圖特征金字塔網絡可以增強卷積特征金字塔網絡的多尺度特征。

主要貢獻:

  • 提出了一種新的圖特征金字塔網絡,利用固有的圖像結構,支援所有尺度的同時特征互動。該圖特征金字塔網絡繼承了輸入圖像的超像素層次結構。上下文層和hierarchical層的設計分别是為了促進相同規模内和跨不同規模的特性互動;
  • 在現有的卷積神經網絡全局通道注意機制的基礎上,進一步引入了圖神經網絡的兩種局部通道注意機制;
  • 在MSCOCO 2017驗證和測試資料集上的大量實驗表明,無論是否基于特征金字塔,圖特征金字塔網絡都可以幫助實作比現有的最先進的目标檢測方法明顯更好的性能。
ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

GraphFPN旨在通過在超像素層次上建構多尺度圖神經網絡來增強卷積特征金字塔網絡

      Superpixel Hierarchy

首先一張圖檔由一個個像素組成(可以看成網格),每個像素可以有一個灰階值(标量)或RGB值(三維向量)。

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

現今一張圖檔動辄1024*1448>100w像素,是以對于圖像處理來說,是非常大的次元。超像素最大的功能之一,便是作為圖像處理其他算法的預處理,在不犧牲太大精确度的情況下降維!超像素最直覺的解釋,便是把一些具有相似特性的像素“聚合”起來,形成一個更具有代表性的大“元素”。而這個新的元素,将作為其他圖像處理算法的基本機關。

一來大大降低了次元;

二來可以剔除一些異常像素點。

      Multi-scale Graph Pyramid

研究者建構了一個圖金字塔,其級别對應于超像素層次的級别。超像素層次中的每個超像素在圖金字塔的相應層次上都有一個對應的圖節點。是以,當從圖金字塔的一層移動到下一層時,節點的數量也會減少4倍。

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

研究者為圖金字塔定義了2種類型的邊。它們被稱為contextual edges和hierarchical edges。contextual edges連接配接同一層次上的2個相鄰節點,而hierarchical edges連接配接不同層次上的2個節點,如果它們對應的超像素之間存在ancestor-descendant關系。contextual edges用于傳播hierarchical edges用于彌合不同層次之間的語義差距。

特别需要注意的是,hierarchical edges是密集的,因為在每個節點和它的每個ancestor和descendant之間都有這樣的邊緣。這些密集的連接配接會産生很大的計算和記憶體成本。是以,每個hierarchical edges都與其節點特征之間的餘弦相似度關聯,研究者根據它們的餘弦特征相似度對hierarchical edges進行修剪。在所有關聯到節點的分層邊緣中,排在最後50%的邊緣将被删除。

      Graph Neural Network Layers

在圖金字塔的基礎上構造了一個圖神經網絡GraphFPN。在GraphFPN中有2種類型的層: contextual layers和hierarchical layers。這2種類型的層在圖金字塔中使用相同的節點集,但不同的圖邊集。contextual layers隻使用上下文邊緣,而hierarchical layers隻使用修剪過的層次邊緣。GraphFPN在最開始有L1 contextual layers,在中間有L2 hierarchical layers,在最後有L3 contextual layers。更重要的是,每一層都有自己的可學習參數,這些參數不會與任何其他層共享。

4

實驗

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

Comparison with state-of-the-art feature pyramid based methods on MS-COCO 2017 test-dev. “AH” and “MT” stand for

augmented head and multi-scale training strategies respectively. The backbone of all listed methods is ResNet101.

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

Comparison with other popular object detectors on MS-COCO 2017 val set. The backbone of all listed methods is

ResNet101.

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

Sample detection results from FPN, FPT, and our GraphFPN based method

ICCV目标檢測:用圖特征金字塔提升精度(附論文下載下傳)

The number of learnable parameters, the total computational cost, and the average test speed of a few detection models. All

experiments are run on an NVidia TITAN 2080Ti GPU.

© THE END 

繼續閱讀