參考代碼：MaskTrack

1. 概述

導讀：這篇文章借鑒了執行個體分割與目标跟蹤的思想，進而得到視訊分割方法MaskTrack。文章的方法使用靜态圖像（非标注的視訊序列）就可以完成訓練工作，并且輸入的資訊可以為邊界框、分割圖或是合并多個帶注釋的幀，輸入的範圍很寬泛，這就使其可以運用到不同的場合下去。這篇文章的重點是将離線（從上一幀預測結果上生成優化之後的掩膜）和線上學習（擷取特定的執行個體目标分割結果）政策互補地組合起來實作更加精細的目标分割。

這篇文章提出的方法使用相鄰兩幀之間的相關性，而不是多幀之間或是整個視訊序列的相關系進行視訊分割，其中對于分割品質較為關鍵是兩個政策：線上與離線學習政策

1）離線學習：這裡使對圖像掩模進行變形和粗糙化，以訓練網絡可以根據其粗略估計輸入生成準确的輸出掩模；
2）線上學習：這裡将目标跟蹤裡面的思想遷移到視訊分割裡面，并使該方法能夠根據新輸入視訊中感興趣的對象輕松地進行優化；

2. MaskTrack方法設計

這篇文章将視訊目标分割從另外一個角度轉換為引導的執行個體分割。也就是從現有分割網絡的基礎上（例如文章說到的DeepLabv2）轉換并訓練它實作逐幀的執行個體分割。這樣帶來一個問題是怎麼讓網絡知道哪個執行個體需要進行分割？對此文章提出兩個互補的政策去解決這個問題。

1）通過離線學習使用預估出來的前一幀掩膜引導網絡偏向于目标執行個體；
2）使用線上學習的方式細化執行個體分割結果；

2.1 離線的執行個體分割學習

為了引導分割網絡分割特定的目标區域，這裡将原始的RGB輸入添加一個channel：mask channel（前一幀的分割輸出，提供目标大概的位置與輪廓資訊），進而得到一個4維的輸入。對應的文章的網絡結構見下圖1所示：

《MaskTrack：Learning Video Object Segmentation from Static Images》論文筆記1. 概述2. MaskTrack方法設計3. 實驗結果

離線學習中使用前一幀産生的粗糙mask，将其送入到訓練網絡中去擷取目前幀的預估，由于相鄰兩幀之間不會存在較大的位移情況，因而這樣的粗糙結果也是一個很好的預估。之後再與線上學習的部分結合産生效果更好的分割結果。文中提到有兩個關鍵性觀察結果支撐文章方法的可行性：

1）即使較為粗糙的mask輸入（bounding box）也可以産生較好的結果，這是由于輸入的mask主要的作用是使得分割網絡趨向于正确的目标執行個體進行分割；
2）由于隻是使用mask作為額外的輸入，則就可以使用大量單張标注的資料進行訓練資料合成，這就使得可供訓練的資料大大增多；

為了去模拟實際情況中前一幀輸出帶噪聲的mask，這裡使用了兩種資料模拟的方式，使得網絡更加魯棒并且避免分割流程中的誤差累積：

1）使用仿射變換、薄闆樣條變換變化輸入的mask資料，這是為了模拟相鄰兩幀之間的位移變化；

《MaskTrack：Learning Video Object Segmentation from Static Images》論文筆記1. 概述2. MaskTrack方法設計3. 實驗結果
2）使用粗糙化（形态學膨脹操作）生成與測試階段類似mask訓練資料；

2.2 線上的執行個體分割學習

為了跟進一步優化分割的效果，這裡借鑒了目标跟蹤中的技術，将其作為與離線學習互補的第二政策。文章中将視訊中帶标注的第一幀作為訓練資料，并使用增廣政策擴充資料，之後finetune（離線學習模型基礎上），進而使得網絡偏向于預測設定目标。

對于資料增廣，這裡在訓練的過程中也采用了資料增廣的方法，除了上文提到的仿射與薄闆樣條變換之外還是用圖像旋轉鏡像等操作，進而在單張的标注上産生上百張的資料進行finetune，進而使得網絡偏向于捕獲所指定的目标。

2.3 邊界框标注與光流輸入

bounding box标注輸入

對于方框類型的輸入文章是單獨使用一個卷積網絡（使用bounding box進行訓練）來得到預估的mask，得到之後就是用标準的MaskTrack模型進行後序幀的處理。

光流資訊引入

文章引入了EpicFlow作為除了RGB資訊之外額外的資訊輸入來優化分割的結果，進而得到的方法是MaskTrack+Flow（其結果是将輸入為RGB與光流的模型去均值輸出得到最後結果）。下圖展示了光流的大小圖，可以為分割提供諸如輪廓等有用資訊

《MaskTrack：Learning Video Object Segmentation from Static Images》論文筆記1. 概述2. MaskTrack方法設計3. 實驗結果

3. 實驗結果

3個資料集上的性能比較：

《MaskTrack：Learning Video Object Segmentation from Static Images》論文筆記1. 概述2. MaskTrack方法設計3. 實驗結果

消融實驗：

《MaskTrack：Learning Video Object Segmentation from Static Images》論文筆記1. 概述2. MaskTrack方法設計3. 實驗結果