天天看點

目标檢測網絡中資料集的維數

作者:小小cv筆記
目标檢測網絡中資料集的維數

arxiv 2022 10月論文

論文題目:

Dimensionality of datasets in object detection networks

論文位址:

https://arxiv.org/abs/2210.07049

摘要

近年來,卷積神經網絡(cnn)被大量應用于計算機視覺的任務中,其中之一是自動駕駛的目标檢測,盡管cnn被廣泛應用于許多領域,但網絡内部發生的事情在許多層面上仍然無法解釋,我們的目标是确定不同層的内維數(即表示資料所需的最小參數數)對增寬資料集目标檢測網絡精度的影響,我們的研究确定,在特征提取過程中,正常資料和增強資料的表示存在差異。

1 .介紹及相關工作

自動駕駛是計算機視覺研究的一個熱點領域,神經網絡是自動駕駛系統中不可分割的一部分,通過神經網絡處理圖像和雷射雷達點來預測目标,天氣變化導緻自動駕駛汽車災難性後果的事件已經被見證,例如,2016年,特斯拉的自動駕駛汽車無法區分白色拖拉機和明亮的天空。我們的目标是估計在正常資料上訓練的目标檢測網絡中增強資料集的本征維數(ID),以觀察由于噪聲或仿射變換引起的資料表示的變化。Bac等指出,ID估計在選擇機器學習方法及其應用(包括驗證、部署和可解釋性)時非常重要。從記憶體需求和計算時間來看,内在空間中的标簽識别是有效的,在輸入中添加噪聲會增加ID。在我們的研究中,使用TwoNN算法(圖1)來估計ID,它基于兩個最近鄰居之間的距離之比,這使得它計算效率高,也克服了資料位于彎曲流形上的問題,它是數值一緻和可靠的估計,即使存在少量的點,從現有的局部和全局ID估計器中,使用TwoNN算法進行ID估計。

目标檢測網絡中資料集的維數

本文的目的是首先驗證,在增強資料集的情況下,相似的特征形狀是否明顯,其次,分類層ID提供了關于網絡性能的想法,第三,如果由于不相關的特征而導緻ID增加,第四,增強資料表示是否表現得像一個未經訓練的網絡?使用三個資料集是為了研究不同資料對增強的影響。ID在KITTI , MS COCO和VOC資料集的Faster R-CNN中使用VGG-16, VGG-19[骨幹進行分析。觀察到由于KITTI資料的垂直位移增強導緻的ID增加,對于所有資料集,旋轉圖像的行為類似于未經訓練的網絡中資料的表示,COCO資料在分類層的次元行為與KITTI和VOC相反。

2内在次元

在神經網絡中表示資料的幾何特性之一是内禀維,即表示資料而不丢失資訊所需的最小坐标數。局部ID估計器計算資料表示的局部子空間,全局ID估計器計算整個資料點表示,全局和局部ID估計器都可以用于替代資料鄰域的估計。我們的目标是估計目标檢測網絡中不同層的ID,并确定增強資料的平均精度與估計ID之間的關系,對于局部空間中的正常生成的樣本和對抗生成的樣本,ID特征是可區分的。

這促使我們在全局空間中進行ID估計實驗,本文采用TwoNN算法進行ID估計。

•計算資料集中每個點的成對距離。

•對于每個點,我找到兩個最短距離r1和r2,并計算µi = (r1/r2)。

•通過排列σ将µ的值按升序排序,然後定義經驗累積F emp(µσ(i)) .= i/N。

•用一條穿過原點的直線拟合坐标{log(μi),−log(1−Femp(μi))}給出的平面上的點。

直線的斜率給出了ID的估計值,用這種方法,估計的ID是漸近正确的,即使是從非均勻機率分布的資料采樣。

3實驗

本文在VGG骨幹網的各池化層上計算ID(标記為pool1,…pool5),在Faster R-CNN中,經過特征提取層後,在區域建議網絡的分類層(rpn c)和包圍盒層(rpn b)上計算ID,然後是ROI池化層(ROI),第二層FC層(FC),最後是分類層(cls p)和包圍框層(box p),在RetinaNet中,ID在VGG骨幹的每個池化層計算。接下來計算ID的層是分類頭卷積(cls h)塊,分類(cls l)層,回歸頭卷積(框h)塊和包圍框(框r)層,之是以在一個層塊之後計算ID,而不是每一個單層,是因為計算需求,在VOC資料訓練的Faster R-CNN模型上估計MS COCO資料集的ID,或者在COCO資料訓練的模型上估計VOC資料集的ID(圖3b)。從表2中實作的其他增強是水準移動,圖像向左或向右移動取決于-0.7到0.7之間生成的随機數和垂直移動,類似于水準移動,除非平移發生在圖像的頂部或底部。

目标檢測網絡中資料集的維數

在對區域建議網絡的ID估計時,由于我們的ID估計算法的限制,即每張圖像在網絡的層上表示為一個點,導緻RPN後各層的ID沒有變化,是以使用得分最高的包圍框作為ROI池化層的輸入。當使用得分最低的邊界框時發生了什麼?我們的結果沒有影響,因為平均精度取決于網絡預測的所有對象,另一個原因是如果沒有對邊界框進行預測,則從我們的估計過程中删除圖像,因為在這種情況下,在ROI池化層将沒有用于表示的資料點。對于1200像素的正方形圖像,計算高維張量(400 x 2304000)時的記憶體要求為33.8G。是以,為了減少計算量和節省時間,ID估計使用400張圖像,為了檢查結果的穩定性,對小尺寸和大尺寸的ID進行了估計,在較大圖像的情況下,ID值更高,但當與用于估計ID的圖層繪制時,ID遵循類似的結構,可以在我們的知識庫(https://github.com/ajaychawda58/ID_CNN)上找到相關圖。

4 結果

根據分類任務中的發現,在經過訓練的網絡中,駝背形狀是明顯的,而在未經訓練的網絡中,網絡顯示扁平輪廓,在我們的實驗中,觀察到旋轉圖像的軌迹更平坦(圖2),這表明旋轉圖像在流形中具有較差的表示,從旋轉圖像的評估中證明,與所有資料集上的其他增強相比,平均精度(表1)較低。

目标檢測網絡中資料集的維數

其他在不同層上具有不同ID的增強資料集的駝背輪廓如圖2所示,是以與旋轉圖像相比,它們在網絡中表現得更好。KIITI的垂直位移(圖2a)具有較高的ID ~ 187,而正常資料在pool1層具有ID ~ 84,這可能是因為一些不相關的特征,比如用插值填充調整大小的圖像,進而增加ID,也可能是因為KITTI的原始圖像大小在1200 x 350左右,當圖像垂直移位,通過插值填充空像素時,增加的像素對網絡來說是不相關的特征。與COCO和VOC相比(圖2b和2c),垂直位移與正常資料之間沒有較大差異,是以,由于COCO和VOC的長寬比接近1:1,KITTI圖像的長寬比3:1可以确認ID增加。如果位移的增加僅僅是由于移位圖像的填充,那麼在水準移位圖像中也會出現這種情況,但是在初始池化層中沒有增加用于水準移動的ID,這支援了我們的說法。

目标檢測網絡中資料集的維數

分類層ID并不能預測目标檢測性能,在我們的例子中,最後一個隐藏層(fc層)ID也與AP沒有關系(表1),是以,使用TwoNN算法,ID與AP在資料集上的依賴關系無法确認,但在特征提取層面觀察到ID的差異,這促使我們稍後使用不同的方法來研究我們的假設。

對比圖2a、圖2b和圖2c,我們觀察到KITTI和VOC資料中分類層的ID低于包圍盒層,而COCO資料則相反,分類層的ID高于包圍盒層,一種可能是由于大量的類(n=91),網絡在分類層泛化很差。在VOC資料訓練的模型上評估COCO資料,反之亦然,我們的目标是研究在另一個資料集上訓練的網絡中不同資料集的行為,在兩個資料集中,pool3層的ID都減少了,減少的原因可以歸因于網絡中影響這一特定層ID的類數量的變化,因為網絡的其他超參數在兩個資料集中是相同的。

5結論和未來工作

提出的方法基于目标檢測網絡中通過估計ID的資料表示,将結果與分類任務進行比較,觀察到它們在特征提取水準上具有可比性,但在區域建議網絡之外沒有。由于ID估計器的選擇,該方法受到了限制,但在主幹水準上仍然觀察到有趣的行為,這促使人們繼續使用不同的估計器進行研究。進一步的研究将繼續比較目前的結果和沒有建議的增強和網絡訓練的模型YOLO,并利用現有方法消除了ID估計的瓶頸,我們的工作從基本層面開始,通過估計Faster R-CNN上的資料集ID,這表明了該方法的新穎性,并希望在未來找到更多關于目标檢測網絡的解釋。

繼續閱讀