天天看點

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

雷鋒網(公衆号:雷鋒網) AI 科技評論按:在 CVPR 2019 CLIC 圖像壓縮挑戰賽中,圖鴨科技所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項名額的冠軍,算法 TucodecPSNR 奪得了 PSNR 名額的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮 Transparent Track 的冠軍。以下為圖鴨科技提供的技術解讀。

摘要:

近年來随着人工智能技術的發展,基于深度學習的圖像壓縮技術已取得了飛速的發展。一個典型的基于深度學習的圖像壓縮架構包括:自編碼網絡結構設計、量化、碼率估計和率-失真優化等幾個子產品。本文将主要介紹圖鴨科技在 CVPR 2019 CLIC 圖像壓縮挑戰賽上的相關技術方案,針對于比賽所設定的低碼點和高碼點壓縮兩個賽道,我們基于變分自編碼網絡設計了可進行端到端優化的圖像壓縮方案。該方案包括一個非線性編碼網絡、軟量化子產品、一個非線性解碼網絡和一個熵估計子產品。我們技術方案的特色之處總結如下:

1. 提出了基于全局特征分析的 non-lcao 注意力子產品,并融合進編碼網絡和解碼網絡,以實作提升自适應碼字配置設定性能的目的。

2. 設計了一種基于自适應聚類的軟量化方法以降低量化損失。

3. 提出了能融合超先驗子網絡和基于 pixel cnn++的上下文模型的碼率估計子產品。

得益于優良的網絡結構和算法設計,我們所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項名額的冠軍,算法 TucodecPSNR 奪得了 PSNR 名額的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮名額的冠軍。接下來将具體介紹我們的算法方案:

方法介紹:

(1) 編碼網絡和解碼網絡

我們的主幹壓縮自編碼網絡使用了如圖 1 所示的非對稱結構,它包括卷積、非線性單元和殘差 non-local 注意力卷積等子產品。值得注意的是,通過使用殘差 non-local 注意力子產品來對特征的全局關聯性進行捕捉和模組化,圖像中的紋理、邊界等複雜部分能得到更好的重建。在 kodak 标準資料集上的實驗表明,通過在編碼和解碼網絡結構中融合 non-local 注意力子產品,能在 PSNR 名額熵帶來 0.6db 的提升。

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

圖 1 編碼和解碼網絡結構示意圖

(2) 量化

在現在的大部分方案中,取整量化

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

是一種常用的方式。我們通過實驗測評發現,這種直接将浮點數映射到整數的量化方式會極大的降低重建精度(PSNR 名額至少降低 0.5db, MS-SSIM 名額降低至少 1.5db)。為了降低量化帶來的精度損失,我們設計了一種基于自适應聚類的軟量化方案,具體介紹如下:

給定可學習的中心點

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

,可使用最近鄰配置設定的方式來計算量化值:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

但式 (1) 的量化方式是不可導,是以将使用如下所定義的軟配置設定方式進行替換,以保證在訓練過程中能進行端到端的優化:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

在用 tensorflow 進行實作時,可以用如下的代碼對參數進行量化:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

(3) 先驗機率和碼率估計

為了進行碼率估計,使用拉普拉斯分布對壓縮特征的分布進行表示,分布的參數包括均值

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

和方差

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

。為了對分布的均值和方差進行端到端的計算,設計了如圖 2 所示的網絡結構:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

圖 2. 碼率估計子產品示意圖,該子產品包括超參自編碼網絡、上下文網絡和熵參數網絡三部分。

碼率估計子產品由三個子網絡構成:超參網絡

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

,參數為

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

;上下文網絡

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

;熵參數網絡

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

,參數是

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

。如圖 2 所示,超參網絡由超參編碼網絡、量化子產品和超參解碼網絡組成。超參網絡的量化特征也需要編碼,使用非參的機率密度估計方式進行先驗機率模組化:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

此外我們使用了 Pixelcnn++網絡結構對特征的上下文關系進行捕捉和模組化;最後使用卷積子產品進行熵參數網絡的建構,并将超參網絡的輸出和上下文網絡的輸出進行級聯來作為熵參數網絡的輸入來計算相應的均值和方差。主幹自編碼網絡壓縮特征的分布可以表示為:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

最後碼率估計将由兩部分組成:一部分是對主幹自編碼網絡中壓縮特征的估計碼率,一部分是超參自編碼網絡壓縮特征的估計碼率:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

(4) 後處理

在方案 TucodecPSNR 中,我們使用了改進的 266 算法作為基礎,但低碼率壓縮算法重建圖最顯著的缺點是存在僞影,并且很多紋理細節會丢失。為了改進在低碼率條件下重建圖的品質,我們設計一個有效地後處理子產品,後處理子產品的具體細節如圖 3 所示。

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

圖 3 後處理算法結構示意圖

(5) 實驗結果

我們從 CLIC 2019 訓練集和 flickr.com 上收集了 5000 張高清圖檔,并從中采集了百萬張的圖像塊作為訓練集。為對網絡進行高效訓練,我們使用 tensorflow 平台對相應網絡結構進行實作。在方案 TucodecSSIM 中,進行網絡訓練使用的損失函數如下所示:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

除上述損失函數外,也結合了對抗生成網絡對壓縮網絡進行端到端的訓練。為了滿足比賽的 0.15bpp 的限制要求,我們訓練了 5 個模型分别對應λ=0.2/0.3/0.4/0.5/0.6,最後使用動态規劃算法進行碼字配置設定。

在方案 TucodecPSNR40db 中,進行網絡訓練所使用的損失函數如下所示:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

在模型訓練完畢後,為了滿足比賽的 PSNR 值不小于 40db 和 MS-SSIM 值不小于 0.993 的限制,共訓練了 5 個模型,對應的 λ=4096/4800/5500/6500/8000。最後使用動态規劃算法進行碼字配置設定。在方案 TucodecPSNR 中,使用了我們改進的 H266 算法作為基礎,并結合後處理網絡進行性能的提升,我們給出了三個模型,分别對應 QP 36/37/38,并最後進行碼字配置設定以滿足 0.15bpp 限制的要求。所提出算法的測評名額如下表所示:

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀

繼續閱讀