天天看點

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

作者:夕小瑤科技說

有些情況下,當面臨分辨率較低的圖像時,可能會在進行諸如目标檢測和圖像分割等任務時遇到一些挑戰和阻礙。這是因為低分辨率圖像可能丢失了細節資訊,使得計算機視覺系統難以準确捕捉和了解圖像中的關鍵特征。在這種背景下,傳統的方法可能表現不佳,因為它們通常依賴于高分辨率圖像中的細微結構。

然而,谷歌的最新研究工作提出的參數化的交彙空間方法,為解決低分辨率圖像中的目标檢測和圖像分割等任務提供了新的可能性。通過引入交彙空間參數化,該方法克服了低分辨率圖像中資訊丢失的問題,使計算機視覺系統能夠更好地了解圖像中的幾何結構和特征。

本文主要介紹了一種名為 Boundary Attention 的模型,該模型能夠在任何分辨率下找到微弱的邊界,能夠推斷圖像中的幾何原語,如邊緣、角、交叉點和均勻外觀區域。此外,作者還較長的描述了模型的輸出以及如何利用模型進行 RGBD 圖像的填充和非照片真實主義風格化。

本文的工作為計算機視覺領域帶來了潛在的開創性研究,為目标檢測、圖像分割、圖像修複等具體任務提供了新的思路和方法。

論文題目:

Boundary Attention: Learning to Find Faint Boundaries at Any Resolution

論文連結:

https://arxiv.org/abs/2401.00935

研究背景主要是針對在噪聲嚴重影響下的圖像邊緣檢測問題。作者認為,這個問題完全依賴于對邊界的基本拓撲和幾何屬性的強大模型,即邊界是由連接配接角點或交叉點的局部平滑曲線構成的。

受早期計算機視覺工作的啟發,該模型提供了一種可以學習的無光栅邊界推斷方法,能夠從深度學習中受益,同時實作了許多經典自下而上技術的優點(如對噪聲的魯棒性、亞像素精度和信号類型之間的适應性)。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖1 在合成資料上進行訓練,面對大量噪音仍能生成準确且清晰定義的圖像邊界

圖像表征

如圖 2 所示,模型首先采用密集的鄰域注意力,使用密集的、步幅為 1 的 token,盡管在圖中以非重疊的形式呈現,以更清晰地展示結構。整個模型對離散空間的平移是不變的,這意味着它适用于任何分辨率的圖像。每個 token 編碼一個自适應大小的幾何原語,用于表示像素周圍未光栅化的本地邊界。通過邊界注意力,這些 token 逐漸變得幾何一緻。模型的輸出是一個重疊的原語字段,這直接暗示了對輸入圖像的邊界感覺平滑和圖像邊界的無符号距離映射。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖2 模型通過密集鄰域注意力的方式處理圖像,以實作對圖像邊界的感覺和平滑

邊界原語(Boundary Primitives)

這部分主要讨論了如何表示局部區域的幾何結構,以及如何在圖像進行中利用這些結構。

作者定義了一個更大的分區簇,以包含更多種類的局部邊界結構,可以用于描述邊緣、角點和交叉點等。此外,還提到了一種将這些局部結構與圖像的其他部分相連接配接的方法,即邊界注意力機制。這種機制通過在像素周圍密集地應用局部注意力操作,逐漸優化與每個像素相關的局部邊界變量場。

這個模型可以從輸入圖像中提取邊界資訊,并生成一系列可重疊的幾何原語,用于生成圖像邊界的無符号距離函數、邊界感覺的平滑通道值,以及與每個像素相關的軟局部注意力分布。

如圖 3 所示,通過沿着光滑的軌迹在幾何原語空間中取樣,可以得到一系列幾何原語的執行個體。在這些樣本中,選擇一個進行放大操作,并伴随着對應的距離圖在右側進行可視化展示。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖3 在幾何原語空間中的樣本生成過程

聚集和切片操作

這是一種用于處理圖像邊界資訊的方法,主要應用于上述提到的邊界注意力模型。

  • 聚集操作:将相鄰像素的資訊彙聚到一起,形成一個更高次元的表示,以便網絡學習有意義的隐藏狀态。
  • 切片操作:将這些高次元表示分割成更小的塊,以便進行局部操作和分析。

這兩種操作互相配合,有助于網絡在不同尺度上捕捉邊界資訊,進而提高邊界定位的精度和魯棒性。

輸出可視化

如圖 4 所示為模型的輸出結果和可視化。

  • 模型的輸出:包括場景的邊界感覺平滑,圖像邊界的全局無符号距離函數,以及與每個像素相關的軟局部注意力圖。
  • 如何可視化輸出:全局無符号距離函數可以用來可視化圖像邊界的全局邊界圖。
谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖4 可視化模型的輸出

此外,作者還展示了如何通過查詢像素周圍的幾何注意力圖來生成空間注意力圖。如圖 4 的底部兩行所示,可以将輸出字段的任何部分展開到它所包含的重疊區域中。

模型架構

本文提出的網絡的參數比大多數邊界學習檢測器小幾個數量級,通過疊代地優化場來逐漸細化每個像素周圍的局部邊界。具體構件包括鄰域 MLP 混合器(MLP-Mixer)、邊界注意力子產品、聚集與切片操作等元件。使用四種全局 loss 函數(針對全局平均場)和兩種局部函數(針對每個局部塊)來訓練。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖5 模型架構,所有塊都對圖像的離散空間偏移是不變的,隻有着色的塊是可學習的。

如圖 5 所示為模型架構,這種名為 "邊界注意力" 的機制,通過密集且重複地應用,逐漸優化一個變量場,該場包圍每個像素的局部邊界資訊。

模型的輸出是一系列重疊的幾何原語,可以用于多種任務,包括生成圖像邊界的無符号距離函數、邊界感覺的通道值平滑以及與鄰域相關的每像素軟局部注意力映射。

作者分兩個階段訓練網絡:

  1. 首先訓練鄰域 MLP 混合器與第一個邊界注意力塊。
  2. 将第二個邊界注意力塊與初始權重複制添加到網絡中,并對整個網絡進行端到端的重新訓練。

在第一階段的訓練中,他們将 loss 應用于網絡的第 3 輪和第 4 輪疊代,而在端到端的優化階段,他們将 loss 應用于第7輪和第8輪疊代。為了鼓勵網絡配置設定足夠的容量以産生高品質的輸出,他們将最終 loss 的權重設定為上一 loss 的三倍,這樣梯度資訊可以在網絡中共享。

實驗結果

對噪聲水準的性能

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖6 在不同噪聲水準下的 ODS F-Score

如圖 6 和表 1 所示,在較低噪音水準下,本文方法優于所有 baseline 方法,并且在較高噪音水準下與 Junction 領域相媲美,同時速度快了數個數量級。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲表1 不同方法在兩個分辨率下的運作時間

亞像素精度

亞像素精度:在圖像或視覺任務中能夠超越像素級别的精确度。當一個算法或模型能夠對目标或邊界的位置進行更精細的定位,超過圖像的原始像素邊界時,就稱之為亞像素精度。

為了測量亞像素精度,作者使用了包含重疊的圓和三角形對的高分辨率圖像,獲得了精确的二進制邊界圖。随後,他們對這些圖像進行下采樣至較低分辨率(125 × 125),并添加了不同程度的高斯噪聲,作為模型的輸入。為了評估模型的預測效果,将輸出上采樣回原始高分辨率(500 × 500)。相較于傳統方法,本文使用了一種直覺的參數形式,通過增加更新檔步幅和相應地調整更新檔大小,實作了保持模型輸出在上采樣時邊界準确性。整體而言,實驗結果表現出模型對于亞像素精度的處理能力,即在高分辨率圖像中能夠提供更為精确的目标位置定位。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖8 從低分辨率到高分辨率,都有着幹淨的邊界

此外,還評估了模型在原始的 500×500 二進制圖上的上采樣輸出,通過變化評估度量的最小距離門檻值來衡量預測與真實結果的接近程度。圖 7 的結果表明,即使輸入圖像包含加性高斯噪聲,模型的 F-score 在所有比對門檻值上仍然保持較高水準。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖7 合成圖像的 ODS F-score 和 PSNR

連接配接空間的線性插值

該實驗觀察到網絡在隐藏狀态中學到了一個空間平滑的連接配接流形。圖 9 的可視化結果顯示了這個學習的連接配接空間的一些特性。結果表明,嵌入空間呈現平滑的特性,有趣的是,它學會将零與近乎相等的角度和接近更新檔中心的頂點關聯起來。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖9 該嵌入學會了平滑且直覺的零

随時間推移的輸出演化

實驗結果顯示在細化過程中距離圖的演變。圖 10 的可視化結果表明,早期疊代是探索性和無結構的,而後續疊代逐漸趨于一緻,呈現出更加有序和一緻的區域邊界。這突顯了網絡在細化過程中逐漸完善和協調局部邊界資訊的能力。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖10 疊代過程中邊界的演變

在真實圖像上的結果

圖 1 和 11 展示了在真實圖像上的結果。盡管在合成資料上進行訓練,本文的方法可以在 ELD 中存在的多個真實傳感器噪聲水準上勝過現有的 SOTA 方法,在高噪聲水準下産生清晰且定義良好的邊界。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!

▲圖11 模型對真實圖像具有很好的泛化能力,在自然圖像中能夠找到準确的邊界

總結

谷歌新釋出的這項工作,引入了邊界注意力模型,一個能夠學習的專門用于推斷未經栅格化圖像邊界的方法。

在實驗中,作者驗證了該模型在極大噪音污染的圖像中找到邊界的效果,并展示了其在處理真實傳感器噪聲的優越性。與現有方法相比,模型在較低噪音水準下表現更優,且在高噪音水準下與其他方法相媲美,同時運作速度更快。

本文的研究不僅推動了圖像邊界推斷的技術邊界,尤其是在不同分辨率的圖像中,還為了解和利用幾何原語在圖像中的表達提供了新的思路。期待作者能夠進一步優化和擴充這一模型,以更好地滿足計算機視覺實際場景中目标檢測、圖像分割、圖像修複等任務對圖像邊界處理的需求。

谷歌提出邊界注意力模型,實作超越像素級檢測精度!
谷歌提出邊界注意力模型,實作超越像素級檢測精度!

繼續閱讀