【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

緒論

傳統圖像壓縮往往經過可逆變換、量化、熵編碼、反轉變換實作近似的重構圖像。其中熵編碼是無損編碼（如哈夫曼、算術編碼等），量化的目的是為産生熵編碼可處理離散信号。

傳統方法往往對各個部分分别優化，本文在圖像壓縮領域提出一個端到端優化的架構。

分析變換将圖像向量

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

轉化到編碼域（隐層變量），

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

，将

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

量化得到

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

，之後經過合成變換傳回到信号域得到重構圖像

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

。其中分析變換和合成變換都是可微分的。

編碼率（rate）通過離散機率分布

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

的熵來評估（熵代表資訊量的大小，直覺來看，經過量化之後的離散分布要經過熵編碼，機率越大的熵編碼長度越短，反之越長，是以熵

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

可以衡量平均編碼長度），失真（distortion）通過

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

和

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

間的MSE或者PSNR來衡量。本論文提出使用感覺變換

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

，将信号域變換到感覺域，提供比PSNR更好的主觀視覺失真近似。

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

優化架構

優化目标通過調整分析、合成變換以最小化率失真（rate-distortion）函數：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

目标可優化（反向傳播）依賴于架構中操作的可微性，其中量化操作不可微，它的導數處處為0或者無窮大。使用在訓練的時候将量化替換為加均勻噪聲、推理的時候使用round量化的方法解決這個問題。

标量量化器為：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

，邊緣分布如下：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

其中

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

為狄拉克函數（積分為1，在0處無限高，其他處為0）。

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

是第

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

個量化區間的機率（量化區間

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

曲線包圍的面積），*代表卷積，rect是在

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

上的均勻分布。

給

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

添加均勻噪聲：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

，滿足

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

，

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

和

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

在整數位置上相同，并且提供了連續的中間值：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

使用優化可微分的熵

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

替代離散熵

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

。為了優化這一項，還需要有對

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

的估計，這個估計不需要任意精确，因為

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

被與rect的卷積所限制（band-limited），這裡使用無參數、分段線性函數（一階樣條插值）作為熵模型估計

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

。總體優化目标如下：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

含參變換的選擇

傳統壓縮中分析變換和合成變換是線性的而且互逆，通常來說，這一點并不需要嚴格滿足，隻要能夠最小化率失真函數就行。

分析變換與合成變換分别使用泛化分裂歸一化GDN和它的近似逆IGDN，對于感覺變換，使用歸一化的拉普拉斯金字塔NLP。

A. GDN描述如下：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

其中

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

代表線性變換（該工作中貌似使用全連接配接，之後的工作使用卷積層作為線性分解）。分析變換模型參數

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

B. 基于一輪定點疊代的方法得到IGDN，描述如下：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

（之後在端到端圖像壓縮中一般将GDN當做非線性元件來用，其中線性變換

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

用卷積層代替）

C. NLP描述如下（之後的工作中少有人用）：

使用拉普拉斯金字塔分解圖像，該金字塔減去多個尺度下平均亮度的局部估計。然後将每個金字塔系數除以局部幅度估計（常數加上鄰居絕對值的權重總和）。通過評估此感覺域中參考和重建之間差異的範數來評估感覺品質。參數（用于幅度的常數和權重）經過優化，以最适合 TID2008 資料庫中的感覺資料，其中包括因塊變換壓縮産生的僞影而損壞的圖像。這種簡單的失真測量提供了近線性适合資料庫中的人類感覺判斷，優于廣泛使用的 SSIM 和 MS-SSIM品質名額。

實驗結果

考慮使用

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

的DCT、線性變換(

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

和

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

各自包含

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

個濾波器系數)、

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

的GDN變換進行比較。分别針對MSE和NLP域範數優化，評價使用PSNR與NLP兩種名額。在下面的圖像中，對于端到端模型，曲線每一個點，對應一個模型，不同模型需要通過調整

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

獲得。實驗結果如下圖：

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》

【圖像壓縮】端到端可學習模型《End-to-end optimization of nonlinear transform codes for perceptual quality》