天天看點

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

作者:千不樊
深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

文|千不樊

編輯|千不樊

介紹

在沒有人類監督的情況下發現物體,因為它們在空間和時間上移動和改變外觀是計算機視覺中最具挑戰性和尚未解決的問題之一;我們如何才能最好地利用物體運動和外觀之間的相關性,在沒有人工監督的情況下對物體發現過程進行數學模組化。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

從時空域中可用的大量資料中更有效地學習,而人為幹預最少,視覺分組的任務對人類來說是自然而然的,但對機器來說要求很高;在視訊無監督分割的背景下,具有強大監督學習能力的深度學習領域和疊代圖算法領域,具有證明的無監督聚類優勢。

我們引入了一種,可用于在無監督設定中自動分割視訊序列的主要對象,雖然一般的基于 3D 卷積的方法将時間次元視為等同于空間次元,我們提出了一種不同的耦合運動和外觀的方式。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

現實世界中的物體在它們的時空鄰域中形成簇,屬于同一物體的點在空間和時間上保持連接配接,具有相似的外觀和運動模式,也與場景的其餘部分不同。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

科學背景

視訊對象分割在計算機視覺領域得到快速發展,大多數解決方案基本上都是受監督的,因為它們依賴于帶有人工标記注釋的大量預訓練模型;雖然人工标注成本極高,但真正的無監督方法很少。

利用不同的啟發式方法和多尺度視訊對象分割的内在屬性;嵌入經過預訓練以用于顯着性預測、跟蹤、估計幾何變換和視訊摘要,與上述工作不同,彌合了經典疊代圖算法和深度學習之間的差距,利用兩者的優勢實作自我監督。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖1 我們的疊代知識交換 ( IKE ) 系統的架構圖子產品(左)和網絡子產品(右)在多個循環上交換資訊,直到收斂。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 2

時空圖結構的可視化表示,說明了建立定義圖形的遠端邊的過程;彩色曲線表示運動鍊,通過跟随光流矢量,從一幀到另一幀按時間向前和向後形成,黑色虛線曲線對應于圖邊,在通過至少一個運動鍊連接配接的節點之間定義。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 3

沿運動鍊收集節點特征:對于一個節點j, 構成特征向量的特征Fj沿着兩個輸出運動鍊(一個向前,一個向後)收集,來自與沿鍊相遇的節點相關聯的像素的不同特征。

兩個關鍵要素使我們的方法與衆不同:

(1)我們提出了一個緊湊的數學模型,它将運動和外觀耦合起來,将視訊中的主要對象定義為我們的特征運動矩陣中的主要自然光譜簇。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 4

(2) 我們的時空簇在像素級别是密集的,是以能夠通過早期做出硬分組決策(例如,計算超像素)來使用視訊中的所有資訊而不會丢失細節。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 5

方法

一種雙重疊代知識交換模型,将時空譜聚類與深度對象分割相結合,能夠在沒有任何人工注釋的情況下進行學習,圖形子產品利用了視訊序列中固有的時空一緻性,但無法通路深層特征。

網絡子產品作為圖形子產品的補充,将深層特征添加到聚類算法中,該網絡具有強大的表示能力,并嘗試預測僅具有單幀輸入的時空聚類過程的輸出。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 6

圖形子產品

給定一個序列M視訊幀,圖形子產品發現主要對象作為時空圖中最強的自然簇,并提取一組米軟分割掩碼,每幀一個,對應于該主要對象。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

時空圖

定義時空圖 G=(V,E), 有一個節點一個 a∈V關聯到視訊的每個像素|V|=n, 在哪裡n = m h w,M- 幀數和( h , w )- 幀大小);G是一個無向圖,具有由運動鍊定義的邊集(圖 2)。

在時空圖中,每個節點A具有關聯的節點級功能 FA∈R1 , 從與節點關聯的像素開始,沿着傳出運動鍊收集特征向量A并通過連接配接到的所有像素A通過運動鍊。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

譜聚類問題公式

我們定義矩陣P是将任何向量投影到特征矩陣的列空間的投影矩陣F(P = F (FtF)− 1Ft). 對向量的限制X, 它表明它應該是列的線性組合F, 可以通過要求滿足S=xTMx。

最優解x∗最大化xTMx在限制下x = P x和∥ x∥2個= 1, 也會最大化xTPMPx受限制 ∥x∥2。

證明草圖作為x∗最大化x = P x在限制下x = P x和 ∥x∥2= 1, 它也最大化(Px)TMPx. As P=PT作為P =PT, 它遵循x∗最大化XTP M P x在考慮的限制條件下。

優化問題可以定義如下:

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖優化算法

Feature-Motion 矩陣的主特征向量A最佳解決方程式中定義的問題,在這個公式中,我們将分割轉換為經典譜聚類,也與圖比對的譜方法相關。

基于的屬性A,具有非負元素,我們可以使用 Perron-Frobenius 定理推斷出最優解x∗具有正值,我們的算法是幂疊代法的有效實作,将收斂到最優解x∗。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

疊代t期間圖子產品的主要算法步驟

傳播步驟

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

傳播步驟相當于讓每個節點A根據更新其标簽x(t)a=∑bMa,bx(t−1)b

步驟也相當于每個節點A有自己的标簽被傳播到它所連接配接的所有節點。

經過一個節點時b,我們将其标簽更新為xb←xb+Ma,bxa但也更新标簽A xa←xa+Ma,bxb,我們在前向和後向方向上将資訊從一幀中的所有節點聯合傳播到所有相鄰幀。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

在每次疊代中,我們估計最佳權重集w*給定節點級特征的最佳近似目前節點标簽F. 權重計算如下:

w∗=(FTF)−1FTx(t)

x(t)←Fw∗=Px(t)

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

理論分析

嘗試将算法的步驟表述為單個更新,會得出描述幂疊代的遞歸關系:

x(t)=(PMx(t−1))/(∥PMx(t−1)∥2

這意味着所提出的算法保證收斂到 PM矩陣,它遵循x∗最大化瑞商R(PM,x)=(xTPMx)/(xTx

最優解的 L2-範數是∥x∗∥2=1 和x∗住在列空間F, 意思是x∗= Px∗. 它立即得出最優解x∗也最大化了我們的目标xTPMPx。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

網絡子產品

網絡子產品(圖 4)是一個補充時空圖的深度分割模型,在每個周期,僅使用圖形子產品的輸出作為監督信号從頭開始訓練網絡,并在接下來的聚類疊代中将它們傳遞給圖形。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

網絡子產品在樣本對上進行訓練(Ii,xi), Ii∈Rh×w×3是ith視訊序列的圖像,以及xi∈[0,1]h×w是監控信号,對于幀i,由圖形子產品提供。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

這種配置確定在高置信度區域增加懲罰,同時我們確定在不确定區域更寬松的行為,在實踐中,我們考慮 λ1=λ2=0.5,網絡子產品解決了以下優化任務:

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

優化算法在實踐中的收斂性

分割過程應該收斂到相同的解決方案x∗不管它的初始化X( 0 ),即使初始解決方案是完全随機的,算法也會收斂到視訊中的主要對象,根據人工标記的 ground truth 驗證了 Feature-Motion 矩陣具有一個主要的強簇,它确實對應于序列中的主要對象。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

為了驗證唯一解的收斂性,我們仔細研究了起點在實踐中的影響,我們驗證了給定相同的特征運動矩陣時會發生什麼(這僅取決于所使用的光流子產品,而不取決于初始解決方案X( 0 )),我們改變初始起點。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

表 1 無監督圖子產品的性能(第一個周期)

無監督情況:光流的影響

運動鍊中連接配接的兩個節點(像素)在圖中也連接配接,而未通過運動鍊連接配接的節點在圖中也不連接配接,連接配接性以矩陣編碼米并立即轉移到特征運動矩陣A, 是時空圖的鄰接矩陣。

在表 1中,提出了一個不同的實驗,其中對于用于建構圖運動結構的給定光流(M),我們連接配接了用兩種光流方法(RAFT 和 FlowNet2.0)計算的節點級特征向量來建構F。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 7

特征運動矩陣的譜分析

特征運動矩陣A是所提出的圖形子產品的關鍵元素,我們的公式将分割視為一個譜聚類問題,前提是視訊序列中的主要對象像素(其中存在此​類對象)在空間和時間上形成了一個強大的自然聚類。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 8 在圖 8中我們為每個考慮的配置提供前六個特征值A, 降序排列

改進幾個圖網絡循環

疊代知識交換系統的有效性,其中圖形作為網絡子產品的教師,然後網絡為下一個聚類和學習周期提供更強大的功能,在表 3和圖 9中,我們詳細介紹了多個資料集的性能演變,同時考慮了無監督和監督情況。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

表 3 循環之間的相對百分比變化

在圖 9 中,展示了系統在無監督情況下的性能演變,此時節點僅使用流特征,網絡子產品總是随機初始化的。

我們系統的無監督公式是最有價值的,因為該系統受益于時空圖的聚類能力和網絡的學習能力,使學習成為可能,而過程中的任何步驟都無需人工注釋。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 9

與基線和最新技術的比較

在圖 10中,我們展示了疊代知識交換系統的定性結果,我們強調兩個元件之間的協定,圖形子產品和網絡子產品。

我們的無監督系統的定性結果,包括所有 4 個資料集的網絡和圖形子產品,對于 YouTube-Objects 和 DAVSOD,ground truth 有時是粗糙的,在這些情況下,我們的結果往往比注釋更精細,這強調了獲得高度準确的人工注釋的難度。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

在圖 11中,我們展示了圖和網絡子產品在無監督設定中的最終性能(在任何級别的訓練或預訓練中都沒有使用人工注釋),我們觀察到,雖然該圖顯示出優越的性能,但單圖像網絡子產品也具有競争力,并且在相同監督水準下克服了大多數頂級方法。

表 4 用于視訊顯着目标檢測任務的 DAVSOD 資料集的定量比較

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

表 6 用于零樣本視訊對象分割任務的 YouTube 對象資料集的定量比較

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

計算複雜度

IKE 系統的每個循環都需要通過圖形子產品和網絡子產品,給定時空圖的公式,視訊像素和圖節點之間存在一對一的對應關系,光譜聚類問題可能看起來很棘手。

考慮到整個系統的複雜性與幀數成線性關系,報告每幀的計算成本,對于圖形子產品的第一個周期,實作需要 0.8 秒/幀:光流 0.04 秒 + 圖形資料初始化 0.18 秒 + 20 次時空圖形疊代 0.58 秒。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 12

隻有第一個周期需要初始化,報告的數字是考慮的最大特征數 (26) 和 FlowNet2.0 光流(RAFT 解決方案需要 0.33 秒/幀),網絡子產品需要 1.64 秒/幀:1.63 秒用于 5 個訓練時期 + 0.01 用于推理。

IKE 所需的總時間為 5.24 秒/幀,224 × 416. 圖形子產品也可以并行化,但它不在我們目前的實作中,在圖 13中,我們研究了圖形子產品第一個周期的計算成本的演變,涉及特征數量和幀數量。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

圖 13

讨論與結論

雙疊代知識交換系統中,無監督時空聚類子產品向深度網絡子產品提供監督信号,後者又将其新學習的深度特征傳回圖形,這兩個互補子產品作為一個單一的自我監督實體運作,并在幾個周期内交換資訊,直到達成共識。

IKE 非常符合目前視訊對象分割的需求,因為無監督情況對于開發對未知資料強大且穩健的方法來說是強制性的,通過将更經典的圖聚類與現代深度學習的互補力量結合在一起,我們在優化和資料驅動模型之間取得了平衡,這種方法可以為無監督視訊分割研究提供新的思路。

深度學習和時空譜聚類之間的疊代交換,怎麼用于視訊無監督分割?

參考文獻:

《格式塔心理學原理》,K. Koffka ,2013 年。

《Quo vadis 動作識别?一個新模型和動力學資料集》,J. Carreira 和 A. Zisserman,2017 。

《無監督視訊對象分割的掩碼選擇和傳播》,S. Garg 和 V. Goel,2021 。

《MATNeT:用于零鏡頭視訊對象分割的運動注意力轉換網絡》,T. Zhou、J. Li、S. Wang、R. Tao 和 J. Shen,2020 年。

如果你也喜歡我的文章,不妨點個“關注”吧!小生在此謝過了!

END