IJCV 2024 | 國防科大最新提出多幀光流架構SplatFlow

1. 導讀

多幀設定有望潛在地緩解光流估計（OEF）中挑戰性的遮擋問題。遺憾的是，多幀OFE(MOFE)尚未得到充分的研究。本工作提出全新的MOFE方法SplatFlow，其引入了可導Splatting變換對前一幀的運動特征進行對齊，并設計了一種Final-to-All的嵌入方法，将對齊後的運動特征輸入到目前幀的估計中，進而對現有的兩幀骨幹網絡進行重構。大量的實驗表明，SplatFlow在KITTI2015和Sintel基準測試中均實作SOTA，大大優于所有已釋出的方法。本工作現已發表在計算機視覺頂級期刊《International Journal of Computer Vision》上。

2. 論文資訊

标題：SplatFlow: Learning Multi-frame Optical Flow via Splatting

作者：Bo Wang，Yifan Zhang，Jian Li，Yang Yu，Zhenping Sun，Li Liu，Dewen Hu

機構：國防科技大學

原文連結：https://arxiv.org/pdf/2306.08887

代碼連結：https://github.com/wwsource/SplatFlow

3. 方法

我們方法是為例如RAFT和GMA等單分辨率疊代骨幹網絡設計的多幀方法。我們以RAFT為例介紹我們的方法，如圖1所示。

圖1

圖1中加粗的橙色和紫色橫向大箭頭分别代表了原始RAFT的光流估計過程（從幀到幀）和過程（從t幀到t+1幀）。我們的多幀方法從過程聚合運動估計到過程中。方法首先在過程的每一次疊代後提取運動特征。然後使用一個基于Splatting的對齊方法來獲得與t幀坐标系對齊的運動特征。接着方法使用一個“Final-to-All”的嵌入方法來将對齊的運動特征輸入到過程中。

如圖1中運動特征編碼器網絡所示，我們從兩幀方法RAFT中引入運動特征。具體的，網絡對過程第n次疊代的相關特征和第次疊代的粗分辨率光流進行聯合編碼，進而得到幀第次疊代的運動特征。

如圖1中基于Splatting的聚合器網絡所示，我們使用其實作所提的基于Splatting的運動特征對齊方法。在提取了每次疊代的後，我們使用第次疊代的粗分辨率光流将其單向映射到幀坐标系下，得到對齊的運動特征。這樣就可以實作運動特征可導且亞像素級别的填充。

如圖1中“Final-to-All”嵌入器網絡所示，最後一次疊代産生的對齊的運動特征會被輸入到過程，用于為每次更新t幀光流提供一個有效的運動先驗。

實驗結果

我們首先探讨了多幀設定對遮擋的影響。表1顯示了“SplatFlow-RAFT”和“SplatFlow-GMA”基線與其兩幀骨幹RAFT和GMA在經過C+T訓練過程後的Things val和Sintel train Clean資料集以及經過S-finetune訓練過程後的Sintel train和Sintel test資料集上三種類型的區域(未遮擋、遮擋和全部)上的評估結果和相對性能增量。從結果來看，經過所有訓練過程後，我們的方法在所有資料集的所有三個區域都取得了顯著的提高。而遮擋區域的改進最為明顯，這表明網絡可以讓每個區域都從多幀設定中受益，特别是在遮擋區域。

表1

圖2顯示了我們的方法和GMA在經過S-finetune的Sintel Clean資料集和經過K-finetune訓練過程的KITTI test資料集上的定性結果。實線框标記區域在t+1幀中被明顯遮擋，虛線框标記區域未被遮擋，但難以估計。框中内容表明我們的方法可以獲得在非遮擋區域更精細的，在遮擋區域更令人滿意且避免大面積估計失敗的結果。同時，圖2 (a)-(c)中在Sintel基準報告的驗證數值展示了我們的方法在三個區域都超過了GMA，這與表1的結論一緻。

圖2

我們在公開的Sintel和KITTI基準上評估了我們的方法，并将結果與之前的工作進行了比較，如表2所示。經過S-finetune訓練過程(表2第二部分)，我們的方法在Sintel test Clean和Sintel test Final資料集上均排名第一，EPE分别為1.12和2.07。與之前的最佳方法GMA相比，誤差分别降低了19.4%和16.2%。經過K-finetune訓練過程(表2第三部分)，在KITTI test資料集上，我們的方法在所有基于光流的方法中排名第一。從這些結果可以看出，我們的方法在兩個公開基準上達到了新的最先進的性能，進而證明了它的有效性和先進性。

本文僅做學術分享，如有侵權，請聯系删文。

計算機視覺技術交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。