天天看點

Mask Track論文翻譯摘要介紹相關工作MaskTrack 方法4 網絡實作和訓練5 結果

摘要

受到近期深度學習在執行個體分割和目标追蹤領域的進展,我們提出将視訊目标分割當做引導式的執行個體分割概念。我們的模型在每一幀的基礎上,使用前一幀對後一幀感興趣目标的預測作為引導。我們論述了高精度的視訊目标分割可以使用僅僅用靜态圖訓練的深度網絡實作。我們的方法的關鍵地方成分在于結合了線上和離線學習政策,離線學習目的是産生一個提煉對感興趣目标的預測掩碼,線上學習使得(allows to)捕捉到指定的目标執行個體的形象。我們的方法可以處理不同類型的輸入注釋:邊界框、分割标簽和包含了多個注釋幀,使得系統适合各種多樣的應用。在三種資料集上,我們獲得了相當的結果,獨立于輸入注釋的類型。

介紹

卷積網絡已經在很多計算機視覺的基本領域展示了卓越的性能,憑借大規模注釋資料的可用性。然而,一些重要的挑戰在視訊進行中使用卷積網絡很困難,因為制造一個足夠的密集、像素配對(pixel-wise)的視訊資料用于訓練通常是很困難的。

一個例子是視訊目标分割,給指定目标的一個或者少數幀的分割掩碼,該任務是精度地分割出其他後續幀中相同的目标。目前效果頂尖的方法要麼是結合框跟蹤和分割,要麼是在時序中通過CRF-like和GrabCut-like傳播第一幀的分割掩碼。

這篇論文一個關鍵的貢獻是全部的注釋視訊是不必要的。我們論述了高精度的視訊目标分割可以通過僅僅使用靜态圖訓練深度網絡實作。

我們從新的角度提出了一個視訊目标分割方法。我們展示了為語義圖像分割設計的卷積網絡可以被利用來做每一幀的執行個體分割和一般性目标分割,同時差別屬于同一類的不同的執行個體。對于每一個新的視訊幀,網絡通過送入前一幀預測的感興趣掩碼,以此來預測新的視訊幀的感興趣掩碼。我們是以提及我們的方法作為指導式的執行個體分隔。我們目前所知,這是第一篇全部訓練視訊目标分割的方法。

我們的系統是高效的,由于它的前饋結構,并且能在單次視訊序列中産生新的高品質的結果,不需要太多幀之間的聯系。這和許多視訊目标分割方法形成鮮明對比,那些方法通常要求在多幀之間的全局性連接配接或者全部的視訊序列來實作一緻的結果。我們的方法可以處理不同的注釋類型,在極端的情況下,甚至簡單的邊界框作為輸入都是足夠的,能實作相當的結果,緻使我們的方法對于各種實際應用非常靈活。

我們的視訊目标的分割品質的關鍵是結合了線下和線上學習政策。線上下階段,我們使用對掩碼進行變形和粗化,以此訓練網絡從粗糙的估計中産生精确的輸出掩碼。線上階段延伸了從之前視訊分割中的工作得到的ideas,是的這個方法更加容易随新視訊的輸入而更好的優化。

得到的結果是一個單一化的,一般化的系統,相較于其他經典方法,在三個相異的資料集标準上比較,盡管在所有視訊中使用相同的模型和參數。我們提供了一個詳細的消融學習并且探索了不同的注釋類型的影響,探讨了幾個已提出的模型的延伸,這些允許獲得更加好的結果。

相關工作

MaskTrack 方法

我們從一個新的角度看視訊目标分割,我們稱之為指引式的執行個體分割。對于每一個新的幀,我們期望對感興趣的目标像素給個标簽,基于這種目的,我們使用已存在的用于分割的模型作為基礎,訓練這個模型超聲每一幀的執行個體分割。我們選擇deeplabv2,但是我們的方法并不限制僅僅使用某一特定網絡結構。

接下來的挑戰是,如果告訴網絡哪一個執行個體需要分割?我們通過使用了兩個互相補充的政策解決這個問題。一個是通過送進前一幀的感興趣目标的掩碼來指導網絡朝着感興趣目标的方向前進,第二部分是使用了線上訓練,微調模型使其對單個執行個體更加針對化。

3.1 線下學習分割執行個體

為了指導像素分類網絡分割感興趣的目标,在網絡的輸入中加入一個通道,輸入變成RGB+mask,有4個通道。額外多出來的亞娜通道就是提供了一個在目前幀中感興趣目标的形狀和位置的大緻預測。我們訓練這個網絡來獲得精确的目标分割,輸入目前幀和目标的粗略估計的掩碼。我們跟蹤網絡實際上是掩碼細化網絡。

有兩個關鍵點使得我們的方法能有效果。第一,非常粗糙的掩碼對于我們訓練好的網絡是足夠的,足以提供一個合理的分割結果。甚至把邊界框當做掩碼都能産生合理的結果。這個輸入掩碼主要的作用是指導網絡朝着正确的目标去分割。

第二,這個特定的方法不要求我們使用視訊作為訓練資料。因為我們僅僅使用mask作為額外的輸入,而不是一個圖像的一部分,是以我們能簡單的使用合成的訓練樣本,從單個幀的執行個體分割注釋中獲得。這使得訓練可以基于大量的多樣的圖像,并且避免了必須使用已存在的視訊分割資料集來做訓練。

圖1展示了我們網絡的結構,為了模仿在前一幀的輸出掩碼中的噪聲,線上下訓練過程中,我們通過仿射變換和非剛體變換來變形掩碼,接着用膨脹形态學的辦法來移除目标輪廓的細節,以此産生了輸入的mask。我們在上萬張圖像的資料集中使用這種資料産生的辦法,資料集包含了多樣的目标執行個體,例子見圖2。

在測試階段,給定一個在t-1時刻的掩碼估計,我們應用膨脹操作在掩碼上,接着使用這個粗略的估計作為第t幀的mask通道輸入。

仿射變換和非剛體變形目的是模型化在相鄰幀中目标被期望的動作。這個粗化過程允許我們生産相似于測試樣本的訓練樣本,模仿輸出輸出掩碼中的斑點形狀。這兩個部分使得估計變得更魯棒,有助于避免從前幾針的誤差積累。

在訓練之後,網絡學會了指導性的執行個體分割,和deepmask、hypercolumns相似,但是不同于使用邊界框作為引導,我們能使用任意的輸入掩碼。訓練細節在第四部分較長的描述。

當僅僅使用線下訓練,分割過程分為兩部分,前一幀的掩碼是粗化的,作為網絡的輸入來估計目前幀的掩碼。因為目标有平滑移動的趨勢,目标的前一幀的掩碼足以提供好的猜測。這個方法是快速的,也能獲得好的結果。我們也使用了光流資訊來傳播掩碼,但是發現光流誤差抵消了增益。

僅使用線下訓練的網絡,提出的方法實作了和之前論述的工作相當的結果。然而整合線上和線下訓練能獲得更加好的效果。

3.2 學習線上執行個體分割

為了更加增強視訊目标分割的品質,我們借助并延伸了現有的辦法,idea最開始在跟蹤領域被提出(來自于MDNet)。目前最好的跟蹤效果都使用了線上跟蹤。是以我們考慮加上線上跟蹤作為第二部分來期望獲得更好的效果。

在測試階段,使用第一幀的分割結果作為額外的輸入,對這個單幀注釋進行增強(變形),接着微調模型來對指定的目标使得模型更加特殊化。

我們使用了和線下訓練相似的增強方法。在仿射變化和非剛體變形中,從一幀中我們也加入了水準翻轉和旋轉來産生多樣的訓練資料。從一幀注釋中,我們産生了近千張訓練樣本,用于将線下訓練好的模型繼續微調。

線上上訓練階段,網絡權重部分地捕捉特定目标的形狀。模型目的在于尋找在一般化的執行個體分割和特定的執行個體分割。線上訓練的詳細過程在第四部分提供。

盡我們所知,我們的方法是第一個使用像素分類來做視訊目标分割。我們把我們的方法稱為maskTrack。

3.3 變體

另外我們考慮了一些變體結構。第一,我們想展示我們的方法是靈活的,能解決不同類型的輸入注釋。第二,運動資訊能被很容易的整合進我們的系統,進一步提高分割的品質。

邊界框注釋

我們讨論一種變體,稱為maskTrack-box,使用邊界框作為輸入掩碼,為了能使用這個變體,我們在第一幀上使用另一個卷積網絡來獲得輸入掩碼,第二個網絡是使用邊界框作為輸入掩碼訓練的,其他幀的做法和标準的maskTrack一樣。

光流

我們也考慮使用光流作為另一個資訊來指導分割。指定一個視訊序列,我們使用epicFlow和convolutional boundaries來計算光流。為了和maskTrack并行,我們進而使用光流場的大小作為輸入圖像,計算第二個輸出掩碼。模型的使用和之前一樣,無需再訓練。盡管網絡已經基于RGB圖像訓練過了,這個政策依然不錯,因為對象流大小可以被視為一個灰階圖像,依然捕捉了對象的形狀資訊,在圖3中有例子。使用RGB模型可以避免在帶有分割注釋的視訊資料集上訓練。

然後我們通過将兩個并行網絡的輸出掩碼做平均來做融合(使用RGB圖和光流圖分别做輸入)。我們稱之為 maskTrack+flow。光流對使用RGB圖的maskTrack提供了一個互相補充(互助)資訊,提高了全面的性能。

4 網絡實作和訓練

接下來,我們現在描述我們的方法的實作細節,分為線下和線上以及資料增強三個部分。

網絡

論文中所有的實驗都使用的是DeeoLabv2-VGG 網絡。模型采用在imagenet預訓練的vgg16網絡。對于第一個卷積層的卷積核中額外的掩碼通道,我們使用高斯初始化(也就是每一個卷積核都加一個通道,用高斯初始化)。我們也嘗試了用0值初始化,發現效果一樣。

線下訓練

我們方法的優勢是不需要代價高昂的視訊在視訊幀中的像素分類标簽作為訓練标簽,是以我們可以使用已存在的優良的圖像分割資料集中的圖像和注釋。(也就是說還是需要圖像的像素标簽,而且在測試中不是使用傳播關鍵幀特征的辦法)我們考慮了ECSSN,MSRA10K,SOD和PASCAL-S。這産生了一個有11282中訓練圖像的內建資料集。

對額外的通道的輸入掩碼的産生是通過把二進制分割掩碼變形之後還使用了仿射變換和非剛體變換,就像3.1部分讨論的那樣。對于仿射變換,我們考慮了正負5%的随機尺寸變換和正負10%的平移。非剛體變形用到thin-plate splines,使用了5個control point和在x,y方向上随機的移動正負10%的原始掩碼寬和高這麼大的間隔。然後掩碼使用5個像素半徑的膨脹操作來粗化。這個掩碼變形過程被應用在訓練集中的所有的目标執行個體。對于一張圖像,兩個不同的掩碼的産生見圖2。

對于訓練,我們跟随[8]中的方法,并且使用SGD,mini-batch是10,采用初始學習率為0.001的多項式學習政策。動量和權重衰減分别設定為0.9和0.0005。網絡訓練20k的疊代次數。

線上訓練

為了線上訓練滿足适用性,我們微調之前線下訓練好的模型,使用第一幀訓練200次,産生的樣本來自于第一幀的注釋。我們使使用水準翻轉和旋轉以及為額外的輸入通道變形注釋掩碼來實作資料增強。這産生了1000張以内的訓練樣本。(僅僅是第一幀嗎?)

網絡使用相同的學習參數離線訓練,微調所有的卷積層和全連接配接層。

在測試階段,我們的基本的maskTrack系統運作了大概12秒/幀,比objFlow快一個量級。

5 結果

在這一部分中我們描述我們的評估協定(protocol),研究我們系統的不同成分的定量性的重要性嗎,并且對比現在三個最新型的資料集來報告我們的結果(一共190個視訊),同時對比注釋的不同數量在最終品質上的效果。另外定量和定性的結果在補充材料中提供。

5.1 實驗設定

資料集

我們在三個不同的視訊分割資料集(DAVIS,YouTubeOBjects,SegTrack-V2)評估我們的方法。這些資料集包括混雜的挑戰,例如形狀變換,遮擋,運動模糊,和形狀變形。

DAVIS包含了50個高品質的視訊,總共有3455幀。每一幀都提供像素級分割标簽,都是從背景分理出的一個單目标或者兩個連接配接的目标。

YoutubeObjects包含10個對象類别的視訊。我們考慮126個超過20000幀的視訊子集,其中像素級的ground truth分割掩碼由[19]提供。

SegTrack-v2[24]包含14個視訊序列,包含24個對象和947幀。每一幀都有一個像素級的掩碼。由于為具有多個對象的序列提供了執行個體級注釋,是以将每個特定的執行個體分割視為單獨的問題。

評估

我們使用标準的mIoU度量評估。估計出來的分割和GT的二進制掩碼的IOU,也稱為jaccard index,在整個視訊中求均值。對于DAVIS,我們使用已被開源的benchmark代碼【30】,排除了第一和最後一幀的評估。For YoutubeObjects

and SegTrack-v2 only the first frame is excluded.

5.2 消融學習(ablation style)

我們首先研究我們方法中的不同組成。我們在DAVIS上實驗,同時使用平均IOU來測試性能。表1展示了每一個成分的重要性,組成成分就是第三部分所描述的那些,還報告了增加額外的成分帶來的提升。

Add-ons 

我們首先研究在基礎MaskTrack系統上添加兩種成分的效果,這是專門為DAVIS調整的。我們能看到光流提供了外形的補充性的資訊,增強了大概4%的效果。在頂層增加調優的後處理 CRF之後,能提高幾個mIOU點,達到80%,是DAVIS上最好的結果。

即使光流能提供不同增益,但是我們發現在跨資料集的時候它很脆弱。處理光流的不同政策提供了1-4%的提升,但是沒有在所有資料集上提供一緻性的增益;主要由于計算光流的模型的失敗。為了呈現在所有資料集中使用一種帶固定的參數的模型,在5.3中的結果我們沒有使用已經計算好的光流。

training

我們接下來研究線下和線上學習。通過禁止線上微調,僅僅通過線下訓練,我們發現掉了5%的IOU百分點(percent points),說明線上微調确實擴充了跟蹤能力。如果我們跳過線下訓練直接使用線上訓練微調,結果掉的很多,盡管能獲得57.6的mIOU,這已經足夠驚人了,因為僅在imagenet上預訓練加單幀訓練的效果已經足夠高了。

(剩下的不重要了,略    ^_^)

pytorch代碼也會後續補充。

如果您覺得有用,請點個贊,都是人工翻譯的。

繼續閱讀