天天看點

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

作者:AITIME論道

張鑫傑

香港科技大學電子與計算機工程系在讀博士生,研究方向為圖像視訊壓縮,

個人首頁為https://xinjie-q.github.io/

内容簡介

多視角圖像壓縮在3D相關應用程式中起着至關重要的作用。現有方法采用預測編碼架構,需要聯合編碼來壓縮相應的視差和殘差資訊。這要求相機之間的協作并在不同視圖之間強制執行對極幾何校正,使得在具有随機重疊視野的分布式相機系統中部署這些方法具有挑戰性。幸運的是,分布式信源編碼理論表明,通過獨立編碼和聯合解碼可以實作相關源的高效資料壓縮,這促使我們設計基于學習的分布式多視角圖像編碼(LDMIC)架構。借助獨立的編碼器,LDMIC在解碼器中引入了一個簡單而有效的聯合上下文傳輸子產品,該子產品基于交叉注意力機制來有效捕獲不同視圖間的全局相關性。實驗結果表明,LDMIC在享受快速編碼速度的同時,顯著優于傳統和基于學習的MIC方法。

論文連結:https://arxiv.org/abs/2301.09799

代碼連結:https://github.com/Xinjie-Q/LDMIC

01

Definition

多視角圖像編碼指給定一組從不同視角來捕獲目前感興趣區域的相關圖檔,通過利用視角間的相關性來進行壓縮和解壓縮。多視角圖像編碼的方案在現實生活當中有着許多重要的應用,比如機器人導航、自動駕駛和視訊監控。在這些應用中,我們經常會部署雙目攝像頭或者三目攝像頭來去産生多視角圖像。除此之外,在3D視訊的生成當中,比如自由試點視訊的生成當中,我們需要對同一個場景來部署多個攝像頭捕獲目前場景中的不同視角。由于通信帶寬的限制,我們需要應用多視角編碼的架構來盡可能減少傳輸所需要的比特數。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

02

Benchmarks

Single Image Coding

下面介紹一些可以用于多視角圖像編碼的方法。最簡單的方法是單幀圖像編碼,當這種方法應用在多視角中,可以獨立地去壓縮每一個視角的圖檔。傳統的方法有JPEG、BPG以及目前最先進的VVC-intra。除此之外,近年來也有許多工作将深度學習的技術引入到圖像壓縮當中,并且取得了比傳統圖像編碼更優越的壓縮性能。如圖1所示,基于學習的單幀圖像壓縮主要是依賴于非線性變換和Entropy模型[1]。非線性變換主要指的是一對編碼器和解碼器。編碼器會将輸入圖檔x從像素空間轉換到特征空間上面,接着利用熵模型來預測目前特征空間的機率分布,通常我們會将的機率分布建構為一個高斯分布。在得到機率分布之後,我們會應用熵編碼将無損壓縮為比特流并傳輸到解碼端進行重建。但是如果我們直接将單幀圖像編碼應用到多視角圖像編碼中,由于單幀圖像編碼隻關注每一張圖檔,而沒有關注不同視角之間的相關性,這會造成次優的壓縮性能。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖1 單幀圖像編碼架構

Joint Multi-view Image Coding

圖2顯示了目前标準多視圖圖像編解碼器 MV-HEVC 的編碼過程 [2]。它采用了預測編碼技術,可以概括為圖3中的聯合編碼-解碼範式。首先,與單幀圖像編碼相比,聯合編碼導緻更高的編碼複雜度。其次,聯合編碼需要預先收集所有不同視角的圖像,這需要相機之間互相通信或将資料傳輸到中間的公共接收器,進而導緻高通信開銷。最後,大多數先前的方案利用基于對極幾何校正的視差估計,這需要事先知道相機的内部和外部參數,以便在視差估計之前對圖像進行校正。然而,在一些應用當中很難擷取到相機的先驗知識。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖2 MV-HEVC編碼過程 圖3 聯合編碼-解碼架構

03

Distributed Source Coding

為解決上述問題,我們回顧了基于Slepian-Wolf Theorem的對稱分布式信源編碼 [3]。它表明了兩個或多個相關源的單獨編碼和聯合解碼在理論上可以達到與聯合編碼-解碼方案相同的壓縮率。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖4 Slepian-Wolf Theorem

04

Proposed Method: LDMIC

基于資訊論結果,我們首先引入分布式信源編碼來解耦視圖間操作。如圖5所示,我們隻使用一個簡單的圖像編碼器來壓縮每個視圖圖像,這使我們能夠享受低編碼複雜度并避免相機協作。然後,我們在解碼器處設計了一個與幾何無關的聯合上下文傳輸(Joint Context Transfer, JCT)子產品,以利用視圖間相關性進行高品質重建。值得注意的是,我們的 JCT 子產品基于交叉注意機制,不依賴視差估計,這可以避免相機參數洩漏。最後,我們聯合訓練編碼器和解碼器以隐式地使潛在表示更緊湊,進而進一步提高壓縮性能。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖5 提出的對稱分布式編碼架構

圖6展示了具體的網絡結構。其中編碼器以及熵模型采用的是單幀圖像編碼,在解碼端則插入了我們提出的聯合上下文編碼子產品去充分地利用不同視角之間的相關性。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖6 帶有具有自回歸熵模型的 LDMIC 架構

Joint Context Transfer Module

圖7展示了我們提出的聯合上下文轉移子產品,其中的核心子產品是交叉注意力機制。在其中我們利用交叉注意力機制去充分利用不同視角之間的群集相關資訊,這樣的操作允許我們在不知道相機參數的前提下充分利用不同視角之間的相關性,這能夠使其适用于任何的多相機系統。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖7 所提出的聯合上下文傳輸子產品中第 k 條路徑的示例

05

Experiments

Compression Performance

如圖8所示,我們提出的方法可以實作與目前先進的聯合編碼解碼方案相當的編碼性能。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖8 不同資料集下的壓縮性能

Complexity Performance

此外,我們的方法繼承了傳統分布式壓縮在圖像級并行化方面的優勢。在與聯合編碼-解碼方法相比,我們的方法有更低的計算開銷。

表1 基于學習的圖像編解碼器的計算複雜度比較

幹貨!ICLR:基于學習的分布式多視角圖像壓縮
幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖9 提出的方法和傳統編解碼器的計算複雜度比較

Ablation Studies

JCT子產品的有效性:我們進行了一系列的消融研究,包括插入/除去JCT子產品來實作Joint/Separate Encoding-Decoding和将JCT子產品替換成其他視間操作。實驗結果表明,我們提出的 JCT 子產品可以更高地捕獲視角相關性和重建更高品質地圖檔。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖10 消融研究

聯合訓練政策的有效性:我們利用聯合訓練的好處來隐含地幫助編碼器學習去除部分視圖間備援。是以,潛在特征表示會更緊湊。為了研究其效果,我們固定住預訓練編碼器和熵模型,僅訓練聯合解碼器。如圖所示,具有聯合訓練政策的潛在特征圖包含更多的低幅值的元素,這表明可以用更少的比特來進行編碼。

幹貨!ICLR:基于學習的分布式多視角圖像壓縮

圖11 來自InStereo2K 資料集的可視化示例

06

Conclusion

首先,我們提出了第一個用于多視圖圖像編碼的基于學習的視圖對稱架構。它解耦了編碼器的視圖間操作,這對于分布式相機系統來說是非常需要的。其次,我們還在解碼器處提供了一個聯合上下文傳輸子產品,以顯式捕獲視圖間相關性以生成更高品質地圖檔。另外,我們引入端到端的編碼器-解碼器訓練政策來隐式地使潛在表示更緊湊。最後,我們希望所提出的方法可以作為未來在相關任務中的貢獻的可能解決方案,例如單視圖和多視圖視訊壓縮。

07

Summary

[1] David Minnen, Johannes Balle, and George D Toderici. Joint autoregressive and hierarchical priors for learned image compression. Advances in neural information processing systems, 31, 2018.

[2] Gerhard Tech, Ying Chen, Karsten Muller, Jens-Rainer Ohm, Anthony Vetro, and Ye-Kui Wang. Overview of the multiview and 3d extensions of high efficiency video coding. IEEE Transactions on Circuits and Systems for Video Technology, 26(1):35–49, 2015.

[3] David Slepian and Jack Wolf. Noiseless coding of correlated information sources. IEEE Transactions on information Theory, 19(4):471–480, 1973.

繼續閱讀