天天看點

IJCV 2024 | 國防科大最新提出多幀光流架構SplatFlow

作者:3D視覺工坊

1. 導讀

多幀設定有望潛在地緩解光流估計(OEF)中挑戰性的遮擋問題。遺憾的是,多幀OFE(MOFE)尚未得到充分的研究。本工作提出全新的MOFE方法SplatFlow,其引入了可導Splatting變換對前一幀的運動特征進行對齊,并設計了一種Final-to-All的嵌入方法,将對齊後的運動特征輸入到目前幀的估計中,進而對現有的兩幀骨幹網絡進行重構。大量的實驗表明,SplatFlow在KITTI2015和Sintel基準測試中均實作SOTA,大大優于所有已釋出的方法。本工作現已發表在計算機視覺頂級期刊《International Journal of Computer Vision》上。

2. 論文資訊

标題:SplatFlow: Learning Multi-frame Optical Flow via Splatting

作者:Bo Wang,Yifan Zhang,Jian Li,Yang Yu,Zhenping Sun,Li Liu,Dewen Hu

機構:國防科技大學

原文連結:https://arxiv.org/pdf/2306.08887

代碼連結:https://github.com/wwsource/SplatFlow

3. 方法

我們方法是為例如RAFT和GMA等單分辨率疊代骨幹網絡設計的多幀方法。我們以RAFT為例介紹我們的方法,如圖1所示。

IJCV 2024 | 國防科大最新提出多幀光流架構SplatFlow

圖1

圖1中加粗的橙色和紫色橫向大箭頭分别代表了原始RAFT的光流估計過程(從幀到幀)和過程(從t幀到t+1幀)。我們的多幀方法從過程聚合運動估計到過程中。方法首先在過程的每一次疊代後提取運動特征。然後使用一個基于Splatting的對齊方法來獲得與t幀坐标系對齊的運動特征。接着方法使用一個“Final-to-All”的嵌入方法來将對齊的運動特征輸入到過程中。

如圖1中運動特征編碼器網絡所示,我們從兩幀方法RAFT中引入運動特征。具體的,網絡對過程第n次疊代的相關特征和第次疊代的粗分辨率光流進行聯合編碼,進而得到幀第次疊代的運動特征。

如圖1中基于Splatting的聚合器網絡所示,我們使用其實作所提的基于Splatting的運動特征對齊方法。在提取了每次疊代的後,我們使用第次疊代的粗分辨率光流将其單向映射到幀坐标系下,得到對齊的運動特征。這樣就可以實作運動特征可導且亞像素級别的填充。

如圖1中“Final-to-All”嵌入器網絡所示,最後一次疊代産生的對齊的運動特征會被輸入到過程,用于為每次更新t幀光流提供一個有效的運動先驗。

實驗結果

我們首先探讨了多幀設定對遮擋的影響。表1顯示了“SplatFlow-RAFT”和“SplatFlow-GMA”基線與其兩幀骨幹RAFT和GMA在經過C+T訓練過程後的Things val和Sintel train Clean資料集以及經過S-finetune訓練過程後的Sintel train和Sintel test資料集上三種類型的區域(未遮擋、遮擋和全部)上的評估結果和相對性能增量。從結果來看,經過所有訓練過程後,我們的方法在所有資料集的所有三個區域都取得了顯著的提高。而遮擋區域的改進最為明顯,這表明網絡可以讓每個區域都從多幀設定中受益,特别是在遮擋區域。

IJCV 2024 | 國防科大最新提出多幀光流架構SplatFlow

表1

圖2顯示了我們的方法和GMA在經過S-finetune的Sintel Clean資料集和經過K-finetune訓練過程的KITTI test資料集上的定性結果。實線框标記區域在t+1幀中被明顯遮擋,虛線框标記區域未被遮擋,但難以估計。框中内容表明我們的方法可以獲得在非遮擋區域更精細的,在遮擋區域更令人滿意且避免大面積估計失敗的結果。同時,圖2 (a)-(c)中在Sintel基準報告的驗證數值展示了我們的方法在三個區域都超過了GMA,這與表1的結論一緻。

IJCV 2024 | 國防科大最新提出多幀光流架構SplatFlow

圖2

我們在公開的Sintel和KITTI基準上評估了我們的方法,并将結果與之前的工作進行了比較,如表2所示。經過S-finetune訓練過程(表2第二部分),我們的方法在Sintel test Clean和Sintel test Final資料集上均排名第一,EPE分别為1.12和2.07。與之前的最佳方法GMA相比,誤差分别降低了19.4%和16.2%。經過K-finetune訓練過程(表2第三部分),在KITTI test資料集上,我們的方法在所有基于光流的方法中排名第一。從這些結果可以看出,我們的方法在兩個公開基準上達到了新的最先進的性能,進而證明了它的有效性和先進性。

IJCV 2024 | 國防科大最新提出多幀光流架構SplatFlow

本文僅做學術分享,如有侵權,請聯系删文。

計算機視覺技術交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。